说明:
返回删除重复行的新 SparkDataFrame,仅考虑列的子集。
用法:
dropDuplicates(x, ...)
## S4 method for signature 'SparkDataFrame'
dropDuplicates(x, ...)
参数:
x
一个 SparkDataFrame。...
列名或字符串列名的字符向量。如果第一个参数包含字符向量,则忽略以下内容。
返回:
删除了重复行的 SparkDataFrame。
注意:
从 2.0.0 开始删除重复项
例子:
sparkR.session()
path <- "path/to/file.json"
df <- read.json(path)
dropDuplicates(df)
dropDuplicates(df, "col1", "col2")
dropDuplicates(df, c("col1", "col2"))
相关用法
- R SparkR dropFields用法及代码示例
- R SparkR drop用法及代码示例
- R SparkR dropTempView用法及代码示例
- R SparkR dropTempTable用法及代码示例
- R SparkR describe用法及代码示例
- R SparkR dapplyCollect用法及代码示例
- R SparkR dapply用法及代码示例
- R SparkR distinct用法及代码示例
- R SparkR dim用法及代码示例
- R SparkR dtypes用法及代码示例
- R matrix转list用法及代码示例
- R SparkR freqItems用法及代码示例
- R SparkR intersectAll用法及代码示例
- R SparkR spark.decisionTree用法及代码示例
- R SparkR sparkR.callJMethod用法及代码示例
- R SparkR sample用法及代码示例
- R SparkR approxQuantile用法及代码示例
- R SparkR glm用法及代码示例
- R SparkR randomSplit用法及代码示例
- R SparkR withColumn用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 dropDuplicates。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。