Python pyspark DataFrame.drop_duplicates用法及代碼示例

本文簡要介紹 pyspark.pandas.DataFrame.drop_duplicates 的用法。

用法: DataFrame.drop_duplicates(subset: Union[Any, Tuple[Any, …], List[Union[Any, Tuple[Any, …]]], None] = None, keep: str = 'first', inplace: bool = False) → Optional[pyspark.pandas.frame.DataFrame]

返回DataFrame，並刪除重複行，可以選擇僅考慮某些列。

參數：

subset：列標簽或標簽序列，可選: 僅考慮某些列來識別重複項，默認情況下使用所有列。
keep：{‘first’, ‘last’, False}，默認 ‘first’: 確定要保留哪些重複項(如果有)。 - first ：刪除除第一次出現的重複項。 - last ：刪除除最後一次出現的重複項。 - False：刪除所有重複項。
inplace：布爾值，默認為 False: 是否將重複項放在適當的位置或返回副本。

DataFrame: DataFrame 刪除重複項，如果 inplace=True 則為 None 。

>>> df = ps.DataFrame(
    ..

… {‘a’: [1, 2, 2, 2, 3], ‘b’: [‘a’, ‘a’, ‘a’, ‘c’, ‘d’]}, 列 = [‘a’, ‘b’])

>>> df
    a  b

0 1個
1 2個
2 2個
3 2 攝氏度
4 3天

>>> df.drop_duplicates().sort_index()
    a  b

0 1個
1 2個
3 2 攝氏度
4 3天

>>> df.drop_duplicates('a').sort_index()
    a  b

0 1個
1 2個
4 3天

>>> df.drop_duplicates(['a', 'b']).sort_index()
    a  b

0 1個
1 2個
3 2 攝氏度
4 3天

>>> df.drop_duplicates(keep='last').sort_index()
    a  b

0 1個
2 2個
3 2 攝氏度
4 3天

>>> df.drop_duplicates(keep=False).sort_index()
    a  b

0 1個
3 2 攝氏度
4 3天

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.DataFrame.drop_duplicates。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：