本文簡要介紹
pyspark.pandas.DataFrame.drop_duplicates
的用法。用法:
DataFrame.drop_duplicates(subset: Union[Any, Tuple[Any, …], List[Union[Any, Tuple[Any, …]]], None] = None, keep: str = 'first', inplace: bool = False) → Optional[pyspark.pandas.frame.DataFrame]
返回DataFrame,並刪除重複行,可以選擇僅考慮某些列。
- subset:列標簽或標簽序列,可選
僅考慮某些列來識別重複項,默認情況下使用所有列。
- keep:{‘first’, ‘last’, False},默認 ‘first’
確定要保留哪些重複項(如果有)。 -
first
:刪除除第一次出現的重複項。 -last
:刪除除最後一次出現的重複項。 - False:刪除所有重複項。- inplace:布爾值,默認為 False
是否將重複項放在適當的位置或返回副本。
- DataFrame
DataFrame 刪除重複項,如果
inplace=True
則為 None 。
>>> df = ps.DataFrame( ..
- … {‘a’: [1, 2, 2, 2, 3], ‘b’: [‘a’, ‘a’, ‘a’, ‘c’, ‘d’]}, 列 = [‘a’, ‘b’])
>>> df a b
- 0 1個
- 1 2個
- 2 2個
- 3 2 攝氏度
- 4 3天
>>> df.drop_duplicates().sort_index() a b
- 0 1個
- 1 2個
- 3 2 攝氏度
- 4 3天
>>> df.drop_duplicates('a').sort_index() a b
- 0 1個
- 1 2個
- 4 3天
>>> df.drop_duplicates(['a', 'b']).sort_index() a b
- 0 1個
- 1 2個
- 3 2 攝氏度
- 4 3天
>>> df.drop_duplicates(keep='last').sort_index() a b
- 0 1個
- 2 2個
- 3 2 攝氏度
- 4 3天
>>> df.drop_duplicates(keep=False).sort_index() a b
- 0 1個
- 3 2 攝氏度
- 4 3天
參數:
返回:
相關用法
- Python pyspark DataFrame.dropDuplicates用法及代碼示例
- Python pyspark DataFrame.dropna用法及代碼示例
- Python pyspark DataFrame.drop用法及代碼示例
- Python pyspark DataFrame.droplevel用法及代碼示例
- Python pyspark DataFrame.div用法及代碼示例
- Python pyspark DataFrame.dtypes用法及代碼示例
- Python pyspark DataFrame.duplicated用法及代碼示例
- Python pyspark DataFrame.distinct用法及代碼示例
- Python pyspark DataFrame.describe用法及代碼示例
- Python pyspark DataFrame.diff用法及代碼示例
- Python pyspark DataFrame.dot用法及代碼示例
- Python pyspark DataFrame.to_latex用法及代碼示例
- Python pyspark DataFrame.align用法及代碼示例
- Python pyspark DataFrame.plot.bar用法及代碼示例
- Python pyspark DataFrame.to_delta用法及代碼示例
- Python pyspark DataFrame.quantile用法及代碼示例
- Python pyspark DataFrame.cumsum用法及代碼示例
- Python pyspark DataFrame.iloc用法及代碼示例
- Python pyspark DataFrame.printSchema用法及代碼示例
- Python pyspark DataFrame.to_table用法及代碼示例
- Python pyspark DataFrame.rmod用法及代碼示例
- Python pyspark DataFrame.to_pandas用法及代碼示例
- Python pyspark DataFrame.sum用法及代碼示例
- Python pyspark DataFrame.transform用法及代碼示例
- Python pyspark DataFrame.get用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.DataFrame.drop_duplicates。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。