当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataFrame.dropDuplicates用法及代码示例


本文简要介绍 pyspark.sql.DataFrame.dropDuplicates 的用法。

用法:

DataFrame.dropDuplicates(subset=None)

返回删除重复行的新 DataFrame ,可选择仅考虑某些列。

对于静态批处理 DataFrame ,它只会删除重复的行。对于流式传输 DataFrame ,它将跨触发器保留所有数据作为中间状态以删除重复行。您可以使用 withWatermark() 来限制重复数据的延迟时间,系统将相应地限制状态。此外,将丢弃比水印更早的数据,以避免任何重复的可能性。

drop_duplicates() dropDuplicates() 的别名。

1.4.0 版中的新函数。

例子

>>> from pyspark.sql import Row
>>> df = sc.parallelize([ \
...     Row(name='Alice', age=5, height=80), \
...     Row(name='Alice', age=5, height=80), \
...     Row(name='Alice', age=10, height=80)]).toDF()
>>> df.dropDuplicates().show()
+-----+---+------+
| name|age|height|
+-----+---+------+
|Alice|  5|    80|
|Alice| 10|    80|
+-----+---+------+
>>> df.dropDuplicates(['name', 'height']).show()
+-----+---+------+
| name|age|height|
+-----+---+------+
|Alice|  5|    80|
+-----+---+------+

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrame.dropDuplicates。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。