當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark Series.drop_duplicates用法及代碼示例


本文簡要介紹 pyspark.pandas.Series.drop_duplicates 的用法。

用法:

Series.drop_duplicates(keep: str = 'first', inplace: bool = False) → Optional[pyspark.pandas.series.Series]

返回刪除重複值的係列。

參數

keep{‘first’, ‘last’, False },默認 ‘first’

處理刪除重複項的方法: - ‘first’ :刪除除第一次出現的重複項。 - ‘last’:刪除除最後一次之外的重複項。 - False :刪除所有重複項。

inplace布爾值,默認 False

如果 True ,就地執行操作並返回 None。

返回

Series

刪除重複的係列。

例子

生成具有重複條目的係列。

>>> s = ps.Series(['lama', 'cow', 'lama', 'beetle', 'lama', 'hippo'],
...               name='animal')
>>> s.sort_index()
0      lama
1       cow
2      lama
3    beetle
4      lama
5     hippo
Name: animal, dtype: object

使用‘keep’ 參數,可以更改重複值的選擇行為。值 ‘first’ 保留每組重複條目的第一次出現。保持的默認值為‘first’。

>>> s.drop_duplicates().sort_index()
0      lama
1       cow
3    beetle
5     hippo
Name: animal, dtype: object

參數‘keep’ 的值‘last’ 保留每組重複條目的最後一次出現。

>>> s.drop_duplicates(keep='last').sort_index()
1       cow
3    beetle
4      lama
5     hippo
Name: animal, dtype: object

參數‘keep’ 的值False 丟棄所有重複條目集。將 ‘inplace’ 的值設置為 True 會就地執行操作並返回 None

>>> s.drop_duplicates(keep=False, inplace=True)
>>> s.sort_index()
1       cow
3    beetle
5     hippo
Name: animal, dtype: object

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.Series.drop_duplicates。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。