Python pyspark DataFrame.drop_duplicates用法及代码示例

本文简要介绍 pyspark.pandas.DataFrame.drop_duplicates 的用法。

用法: DataFrame.drop_duplicates(subset: Union[Any, Tuple[Any, …], List[Union[Any, Tuple[Any, …]]], None] = None, keep: str = 'first', inplace: bool = False) → Optional[pyspark.pandas.frame.DataFrame]

返回DataFrame，并删除重复行，可以选择仅考虑某些列。

参数：

subset：列标签或标签序列，可选: 仅考虑某些列来识别重复项，默认情况下使用所有列。
keep：{‘first’, ‘last’, False}，默认 ‘first’: 确定要保留哪些重复项(如果有)。 - first ：删除除第一次出现的重复项。 - last ：删除除最后一次出现的重复项。 - False：删除所有重复项。
inplace：布尔值，默认为 False: 是否将重复项放在适当的位置或返回副本。

DataFrame: DataFrame 删除重复项，如果 inplace=True 则为 None 。

>>> df = ps.DataFrame(
    ..

… {‘a’: [1, 2, 2, 2, 3], ‘b’: [‘a’, ‘a’, ‘a’, ‘c’, ‘d’]}, 列 = [‘a’, ‘b’])

>>> df
    a  b

0 1个
1 2个
2 2个
3 2 摄氏度
4 3天

>>> df.drop_duplicates().sort_index()
    a  b

0 1个
1 2个
3 2 摄氏度
4 3天

>>> df.drop_duplicates('a').sort_index()
    a  b

0 1个
1 2个
4 3天

>>> df.drop_duplicates(['a', 'b']).sort_index()
    a  b

0 1个
1 2个
3 2 摄氏度
4 3天

>>> df.drop_duplicates(keep='last').sort_index()
    a  b

0 1个
2 2个
3 2 摄氏度
4 3天

>>> df.drop_duplicates(keep=False).sort_index()
    a  b

0 1个
3 2 摄氏度
4 3天

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.drop_duplicates。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：