当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R SparkR dropDuplicates用法及代码示例


说明:

返回删除重复行的新 SparkDataFrame,仅考虑列的子集。

用法:

dropDuplicates(x, ...)

## S4 method for signature 'SparkDataFrame'
dropDuplicates(x, ...)

参数:

  • x 一个 SparkDataFrame。
  • ... 列名或字符串列名的字符向量。如果第一个参数包含字符向量,则忽略以下内容。

返回:

删除了重复行的 SparkDataFrame。

注意:

从 2.0.0 开始删除重复项

例子:

sparkR.session()
path <- "path/to/file.json"
df <- read.json(path)
dropDuplicates(df)
dropDuplicates(df, "col1", "col2")
dropDuplicates(df, c("col1", "col2"))

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 dropDuplicates。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。