当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataFrame.drop_duplicates用法及代码示例


本文简要介绍 pyspark.pandas.DataFrame.drop_duplicates 的用法。

用法:

DataFrame.drop_duplicates(subset: Union[Any, Tuple[Any, …], List[Union[Any, Tuple[Any, …]]], None] = None, keep: str = 'first', inplace: bool = False) → Optional[pyspark.pandas.frame.DataFrame]

返回DataFrame,并删除重复行,可以选择仅考虑某些列。

参数

subset列标签或标签序列,可选

仅考虑某些列来识别重复项,默认情况下使用所有列。

keep{‘first’, ‘last’, False},默认 ‘first’

确定要保留哪些重复项(如果有)。 - first :删除除第一次出现的重复项。 - last :删除除最后一次出现的重复项。 - False:删除所有重复项。

inplace布尔值,默认为 False

是否将重复项放在适当的位置或返回副本。

返回

DataFrame

DataFrame 删除重复项,如果 inplace=True 则为 None 。

>>> df = ps.DataFrame(
    ..
… {‘a’: [1, 2, 2, 2, 3], ‘b’: [‘a’, ‘a’, ‘a’, ‘c’, ‘d’]}, 列 = [‘a’, ‘b’])
>>> df
    a  b
0 1个
1 2个
2 2个
3 2 摄氏度
4 3天
>>> df.drop_duplicates().sort_index()
    a  b
0 1个
1 2个
3 2 摄氏度
4 3天
>>> df.drop_duplicates('a').sort_index()
    a  b
0 1个
1 2个
4 3天
>>> df.drop_duplicates(['a', 'b']).sort_index()
    a  b
0 1个
1 2个
3 2 摄氏度
4 3天
>>> df.drop_duplicates(keep='last').sort_index()
    a  b
0 1个
2 2个
3 2 摄氏度
4 3天
>>> df.drop_duplicates(keep=False).sort_index()
    a  b
0 1个
3 2 摄氏度
4 3天

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.drop_duplicates。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。