R SparkR subset用法及代码示例

说明：

根据给定条件返回 SparkDataFrame 的子集

用法：

subset(x, ...)

## S4 method for signature 'SparkDataFrame,numericOrcharacter'
x[[i]]

## S4 replacement method for signature 'SparkDataFrame,numericOrcharacter'
x[[i]] <- value

## S4 method for signature 'SparkDataFrame'
x[i, j, ..., drop = F]

## S4 method for signature 'SparkDataFrame'
subset(x, subset, select, drop = F, ...)

参数：

x 一个 SparkDataFrame。
... 目前没有使用。
i, subset (可选)用于过滤行的逻辑表达式。对于提取运算符 [[ 和替换运算符 [[<-]，单个列的索引参数。
value 长度为 1 的列或原子向量作为文字值，或 NULL 。如果 NULL ，则删除指定的列。
j, select 要从 SparkDataFrame 中选择的单个列或列列表的表达式。
drop 如果为 TRUE，如果结果数据集只有一列，则将返回一列。否则，将始终返回 SparkDataFrame。

一个新的 SparkDataFrame，仅包含符合条件的行和选定的列。

注意：

[[ 从 1.4.0 开始

[[<- 从 2.1.1 开始

[ 从 1.4.0 开始

自 1.5.0 以来的子集

例子：

# Columns can be selected using [[ and [
  df[[2]] == df[["age"]]
  df[,2] == df[,"age"]
  df[,c("name", "age")]
  # Or to filter rows
  df[df$age > 20,]
  # SparkDataFrame can be subset on both rows and Columns
  df[df$name == "Smith", c(1,2)]
  df[df$age %in% c(19, 30), 1:2]
  subset(df, df$age %in% c(19, 30), 1:2)
  subset(df, df$age %in% c(19), select = c(1,2))
  subset(df, select = c(1,2))
  # Columns can be selected and set
  df[["age"]] <- 23
  df[[1]] <- df$age
  df[[2]] <- NULL # drop column

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 Subset。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

说明：

用法：

参数：

返回：

注意：

例子：