PySpark DataFrame 的 dropDuplicates(~)
返回删除了重复行的新 DataFrame。我们可以选择指定列来检查重复项。
注意
dropDuplicates(~)
是 drop_duplicates(~)
的别名。
参数
1.subset
| string
或list
或string
| optional
用于检查重复项的列。默认情况下,将检查所有列。
返回值
一个新的 PySpark 数据帧。
例子
考虑以下PySpark DataFrame:
df = spark.createDataFrame([["Alex", 25], ["Bob", 30], ["Bob", 30], ["Cathy", 25]], ["name", "age"])
df.show()
+-----+---+
| name|age|
+-----+---+
| Alex| 25|
| Bob| 30|
| Bob| 30|
|Cathy| 25|
+-----+---+
删除 PySpark DataFrame 中的重复行
要删除重复的行:
df.dropDuplicates().show()
+-----+---+
| name|age|
+-----+---+
| Alex| 25|
| Bob| 30|
|Cathy| 25|
+-----+---+
请注意以下事项:
-
仅保留第一次出现的情况,而删除后续出现的情况。
-
返回一个新的 PySpark DataFrame,同时保持原始数据帧不变。
删除某些列的重复行
要根据 age
列删除重复行:
df.dropDuplicates(["age"]).show()
+----+---+
|name|age|
+----+---+
|Alex| 25|
| Bob| 30|
+----+---+
同样,仅保留第一次出现的行,而丢弃后面的重复行。
相关用法
- Python PySpark DataFrame drop方法用法及代码示例
- Python Pandas DataFrame drop_duplicates方法用法及代码示例
- Python Pandas DataFrame drop方法用法及代码示例
- Python Pandas DataFrame droplevel方法用法及代码示例
- Python PySpark DataFrame dropna方法用法及代码示例
- Python Pandas DataFrame dropna方法用法及代码示例
- Python PySpark DataFrame dtypes属性用法及代码示例
- Python Pandas DataFrame dtypes属性用法及代码示例
- Python Pandas DataFrame duplicated方法用法及代码示例
- Python Pandas DataFrame diff方法用法及代码示例
- Python Pandas DataFrame dot方法用法及代码示例
- Python Pandas DataFrame describe方法用法及代码示例
- Python PySpark DataFrame describe方法用法及代码示例
- Python Pandas DataFrame div方法用法及代码示例
- Python PySpark DataFrame distinct方法用法及代码示例
- Python Pandas DataFrame empty属性用法及代码示例
- Python Pandas DataFrame pop方法用法及代码示例
- Python Pandas DataFrame nsmallest方法用法及代码示例
- Python Pandas DataFrame sample方法用法及代码示例
- Python Pandas DataFrame items方法用法及代码示例
- Python Pandas DataFrame max方法用法及代码示例
- Python Pandas DataFrame swaplevel方法用法及代码示例
- Python Pandas DataFrame agg方法用法及代码示例
- Python Pandas DataFrame copy方法用法及代码示例
- Python Pandas DataFrame pow方法用法及代码示例
注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark DataFrame | dropDuplicates method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。