当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R SparkR subset用法及代码示例


说明:

根据给定条件返回 SparkDataFrame 的子集

用法:

subset(x, ...)

## S4 method for signature 'SparkDataFrame,numericOrcharacter'
x[[i]]

## S4 replacement method for signature 'SparkDataFrame,numericOrcharacter'
x[[i]] <- value

## S4 method for signature 'SparkDataFrame'
x[i, j, ..., drop = F]

## S4 method for signature 'SparkDataFrame'
subset(x, subset, select, drop = F, ...)

参数:

  • x 一个 SparkDataFrame。
  • ... 目前没有使用。
  • i, subset (可选)用于过滤行的逻辑表达式。对于提取运算符 [[ 和替换运算符 [[<-],单个列的索引参数。
  • value 长度为 1 的列或原子向量作为文字值,或 NULL 。如果 NULL ,则删除指定的列。
  • j, select 要从 SparkDataFrame 中选择的单个列或列列表的表达式。
  • drop 如果为 TRUE,如果结果数据集只有一列,则将返回一列。否则,将始终返回 SparkDataFrame。

返回:

一个新的 SparkDataFrame,仅包含符合条件的行和选定的列。

注意:

[[ 从 1.4.0 开始

[[<- 从 2.1.1 开始

[ 从 1.4.0 开始

自 1.5.0 以来的子集

例子:

# Columns can be selected using [[ and [
  df[[2]] == df[["age"]]
  df[,2] == df[,"age"]
  df[,c("name", "age")]
  # Or to filter rows
  df[df$age > 20,]
  # SparkDataFrame can be subset on both rows and Columns
  df[df$name == "Smith", c(1,2)]
  df[df$age %in% c(19, 30), 1:2]
  subset(df, df$age %in% c(19, 30), 1:2)
  subset(df, df$age %in% c(19), select = c(1,2))
  subset(df, select = c(1,2))
  # Columns can be selected and set
  df[["age"]] <- 23
  df[[1]] <- df$age
  df[[2]] <- NULL # drop column

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 Subset。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。