本文简要介绍
pyspark.pandas.DataFrame.drop_duplicates
的用法。用法:
DataFrame.drop_duplicates(subset: Union[Any, Tuple[Any, …], List[Union[Any, Tuple[Any, …]]], None] = None, keep: str = 'first', inplace: bool = False) → Optional[pyspark.pandas.frame.DataFrame]
返回DataFrame,并删除重复行,可以选择仅考虑某些列。
- subset:列标签或标签序列,可选
仅考虑某些列来识别重复项,默认情况下使用所有列。
- keep:{‘first’, ‘last’, False},默认 ‘first’
确定要保留哪些重复项(如果有)。 -
first
:删除除第一次出现的重复项。 -last
:删除除最后一次出现的重复项。 - False:删除所有重复项。- inplace:布尔值,默认为 False
是否将重复项放在适当的位置或返回副本。
- DataFrame
DataFrame 删除重复项,如果
inplace=True
则为 None 。
>>> df = ps.DataFrame( ..
- … {‘a’: [1, 2, 2, 2, 3], ‘b’: [‘a’, ‘a’, ‘a’, ‘c’, ‘d’]}, 列 = [‘a’, ‘b’])
>>> df a b
- 0 1个
- 1 2个
- 2 2个
- 3 2 摄氏度
- 4 3天
>>> df.drop_duplicates().sort_index() a b
- 0 1个
- 1 2个
- 3 2 摄氏度
- 4 3天
>>> df.drop_duplicates('a').sort_index() a b
- 0 1个
- 1 2个
- 4 3天
>>> df.drop_duplicates(['a', 'b']).sort_index() a b
- 0 1个
- 1 2个
- 3 2 摄氏度
- 4 3天
>>> df.drop_duplicates(keep='last').sort_index() a b
- 0 1个
- 2 2个
- 3 2 摄氏度
- 4 3天
>>> df.drop_duplicates(keep=False).sort_index() a b
- 0 1个
- 3 2 摄氏度
- 4 3天
参数:
返回:
相关用法
- Python pyspark DataFrame.dropDuplicates用法及代码示例
- Python pyspark DataFrame.dropna用法及代码示例
- Python pyspark DataFrame.drop用法及代码示例
- Python pyspark DataFrame.droplevel用法及代码示例
- Python pyspark DataFrame.div用法及代码示例
- Python pyspark DataFrame.dtypes用法及代码示例
- Python pyspark DataFrame.duplicated用法及代码示例
- Python pyspark DataFrame.distinct用法及代码示例
- Python pyspark DataFrame.describe用法及代码示例
- Python pyspark DataFrame.diff用法及代码示例
- Python pyspark DataFrame.dot用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark DataFrame.quantile用法及代码示例
- Python pyspark DataFrame.cumsum用法及代码示例
- Python pyspark DataFrame.iloc用法及代码示例
- Python pyspark DataFrame.printSchema用法及代码示例
- Python pyspark DataFrame.to_table用法及代码示例
- Python pyspark DataFrame.rmod用法及代码示例
- Python pyspark DataFrame.to_pandas用法及代码示例
- Python pyspark DataFrame.sum用法及代码示例
- Python pyspark DataFrame.transform用法及代码示例
- Python pyspark DataFrame.get用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.drop_duplicates。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。