Python pyspark DataFrame.dropDuplicates用法及代码示例

本文简要介绍 pyspark.sql.DataFrame.dropDuplicates 的用法。

用法: DataFrame.dropDuplicates(subset=None)

返回删除重复行的新 DataFrame ，可选择仅考虑某些列。

对于静态批处理 DataFrame ，它只会删除重复的行。对于流式传输 DataFrame ，它将跨触发器保留所有数据作为中间状态以删除重复行。您可以使用 withWatermark() 来限制重复数据的延迟时间，系统将相应地限制状态。此外，将丢弃比水印更早的数据，以避免任何重复的可能性。

drop_duplicates() 是 dropDuplicates() 的别名。

1.4.0 版中的新函数。

例子：

>>> from pyspark.sql import Row
>>> df = sc.parallelize([ \
...     Row(name='Alice', age=5, height=80), \
...     Row(name='Alice', age=5, height=80), \
...     Row(name='Alice', age=10, height=80)]).toDF()
>>> df.dropDuplicates().show()
+-----+---+------+
| name|age|height|
+-----+---+------+
|Alice|  5|    80|
|Alice| 10|    80|
+-----+---+------+

>>> df.dropDuplicates(['name', 'height']).show()
+-----+---+------+
| name|age|height|
+-----+---+------+
|Alice|  5|    80|
+-----+---+------+

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrame.dropDuplicates。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。