當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python PySpark DataFrame dropDuplicates方法用法及代碼示例

PySpark DataFrame 的 dropDuplicates(~) 返回刪除了重複行的新 DataFrame。我們可以選擇指定列來檢查重複項。

注意

dropDuplicates(~)drop_duplicates(~) 的別名。

參數

1.subset | stringliststring | optional

用於檢查重複項的列。默認情況下,將檢查所有列。

返回值

一個新的 PySpark 數據幀。

例子

考慮以下PySpark DataFrame:

df = spark.createDataFrame([["Alex", 25], ["Bob", 30], ["Bob", 30], ["Cathy", 25]], ["name", "age"])
df.show()



+-----+---+
| name|age|
+-----+---+
| Alex| 25|
|  Bob| 30|
|  Bob| 30|
|Cathy| 25|
+-----+---+

刪除 PySpark DataFrame 中的重複行

要刪除重複的行:

df.dropDuplicates().show()



+-----+---+
| name|age|
+-----+---+
| Alex| 25|
|  Bob| 30|
|Cathy| 25|
+-----+---+

請注意以下事項:

  • 僅保留第一次出現的情況,而刪除後續出現的情況。

  • 返回一個新的 PySpark DataFrame,同時保持原始數據幀不變。

刪除某些列的重複行

要根據 age 列刪除重複行:

df.dropDuplicates(["age"]).show()



+----+---+
|name|age|
+----+---+
|Alex| 25|
| Bob| 30|
+----+---+

同樣,僅保留第一次出現的行,而丟棄後麵的重複行。

相關用法


注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark DataFrame | dropDuplicates method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。