本文簡要介紹
pyspark.pandas.Series.drop_duplicates
的用法。用法:
Series.drop_duplicates(keep: str = 'first', inplace: bool = False) → Optional[pyspark.pandas.series.Series]
返回刪除重複值的係列。
- keep:{‘first’, ‘last’,
False
},默認 ‘first’ 處理刪除重複項的方法: - ‘first’ :刪除除第一次出現的重複項。 - ‘last’:刪除除最後一次之外的重複項。 -
False
:刪除所有重複項。- inplace:布爾值,默認
False
如果
True
,就地執行操作並返回 None。
- keep:{‘first’, ‘last’,
- Series
刪除重複的係列。
參數:
返回:
例子:
生成具有重複條目的係列。
>>> s = ps.Series(['lama', 'cow', 'lama', 'beetle', 'lama', 'hippo'], ... name='animal') >>> s.sort_index() 0 lama 1 cow 2 lama 3 beetle 4 lama 5 hippo Name: animal, dtype: object
使用‘keep’ 參數,可以更改重複值的選擇行為。值 ‘first’ 保留每組重複條目的第一次出現。保持的默認值為‘first’。
>>> s.drop_duplicates().sort_index() 0 lama 1 cow 3 beetle 5 hippo Name: animal, dtype: object
參數‘keep’ 的值‘last’ 保留每組重複條目的最後一次出現。
>>> s.drop_duplicates(keep='last').sort_index() 1 cow 3 beetle 4 lama 5 hippo Name: animal, dtype: object
參數‘keep’ 的值
False
丟棄所有重複條目集。將 ‘inplace’ 的值設置為True
會就地執行操作並返回None
。>>> s.drop_duplicates(keep=False, inplace=True) >>> s.sort_index() 1 cow 3 beetle 5 hippo Name: animal, dtype: object
相關用法
- Python pyspark Series.dropna用法及代碼示例
- Python pyspark Series.drop用法及代碼示例
- Python pyspark Series.droplevel用法及代碼示例
- Python pyspark Series.dt.is_quarter_end用法及代碼示例
- Python pyspark Series.dt.is_month_end用法及代碼示例
- Python pyspark Series.describe用法及代碼示例
- Python pyspark Series.diff用法及代碼示例
- Python pyspark Series.dt.floor用法及代碼示例
- Python pyspark Series.dt.is_quarter_start用法及代碼示例
- Python pyspark Series.dt.day_name用法及代碼示例
- Python pyspark Series.dt.dayofweek用法及代碼示例
- Python pyspark Series.dtype用法及代碼示例
- Python pyspark Series.dt.ceil用法及代碼示例
- Python pyspark Series.dt.strftime用法及代碼示例
- Python pyspark Series.dot用法及代碼示例
- Python pyspark Series.dtypes用法及代碼示例
- Python pyspark Series.dt.is_leap_year用法及代碼示例
- Python pyspark Series.dt.is_year_start用法及代碼示例
- Python pyspark Series.dt.month_name用法及代碼示例
- Python pyspark Series.dt.round用法及代碼示例
- Python pyspark Series.div用法及代碼示例
- Python pyspark Series.dt.is_year_end用法及代碼示例
- Python pyspark Series.dt.weekday用法及代碼示例
- Python pyspark Series.dt.normalize用法及代碼示例
- Python pyspark Series.dt.is_month_start用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.Series.drop_duplicates。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。