當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark DataFrame.drop_duplicates用法及代碼示例


本文簡要介紹 pyspark.pandas.DataFrame.drop_duplicates 的用法。

用法:

DataFrame.drop_duplicates(subset: Union[Any, Tuple[Any, …], List[Union[Any, Tuple[Any, …]]], None] = None, keep: str = 'first', inplace: bool = False) → Optional[pyspark.pandas.frame.DataFrame]

返回DataFrame,並刪除重複行,可以選擇僅考慮某些列。

參數

subset列標簽或標簽序列,可選

僅考慮某些列來識別重複項,默認情況下使用所有列。

keep{‘first’, ‘last’, False},默認 ‘first’

確定要保留哪些重複項(如果有)。 - first :刪除除第一次出現的重複項。 - last :刪除除最後一次出現的重複項。 - False:刪除所有重複項。

inplace布爾值,默認為 False

是否將重複項放在適當的位置或返回副本。

返回

DataFrame

DataFrame 刪除重複項,如果 inplace=True 則為 None 。

>>> df = ps.DataFrame(
    ..
… {‘a’: [1, 2, 2, 2, 3], ‘b’: [‘a’, ‘a’, ‘a’, ‘c’, ‘d’]}, 列 = [‘a’, ‘b’])
>>> df
    a  b
0 1個
1 2個
2 2個
3 2 攝氏度
4 3天
>>> df.drop_duplicates().sort_index()
    a  b
0 1個
1 2個
3 2 攝氏度
4 3天
>>> df.drop_duplicates('a').sort_index()
    a  b
0 1個
1 2個
4 3天
>>> df.drop_duplicates(['a', 'b']).sort_index()
    a  b
0 1個
1 2個
3 2 攝氏度
4 3天
>>> df.drop_duplicates(keep='last').sort_index()
    a  b
0 1個
2 2個
3 2 攝氏度
4 3天
>>> df.drop_duplicates(keep=False).sort_index()
    a  b
0 1個
3 2 攝氏度
4 3天

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.DataFrame.drop_duplicates。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。