当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark Series.drop_duplicates用法及代码示例


本文简要介绍 pyspark.pandas.Series.drop_duplicates 的用法。

用法:

Series.drop_duplicates(keep: str = 'first', inplace: bool = False) → Optional[pyspark.pandas.series.Series]

返回删除重复值的系列。

参数

keep{‘first’, ‘last’, False },默认 ‘first’

处理删除重复项的方法: - ‘first’ :删除除第一次出现的重复项。 - ‘last’:删除除最后一次之外的重复项。 - False :删除所有重复项。

inplace布尔值,默认 False

如果 True ,就地执行操作并返回 None。

返回

Series

删除重复的系列。

例子

生成具有重复条目的系列。

>>> s = ps.Series(['lama', 'cow', 'lama', 'beetle', 'lama', 'hippo'],
...               name='animal')
>>> s.sort_index()
0      lama
1       cow
2      lama
3    beetle
4      lama
5     hippo
Name: animal, dtype: object

使用‘keep’ 参数,可以更改重复值的选择行为。值 ‘first’ 保留每组重复条目的第一次出现。保持的默认值为‘first’。

>>> s.drop_duplicates().sort_index()
0      lama
1       cow
3    beetle
5     hippo
Name: animal, dtype: object

参数‘keep’ 的值‘last’ 保留每组重复条目的最后一次出现。

>>> s.drop_duplicates(keep='last').sort_index()
1       cow
3    beetle
4      lama
5     hippo
Name: animal, dtype: object

参数‘keep’ 的值False 丢弃所有重复条目集。将 ‘inplace’ 的值设置为 True 会就地执行操作并返回 None

>>> s.drop_duplicates(keep=False, inplace=True)
>>> s.sort_index()
1       cow
3    beetle
5     hippo
Name: animal, dtype: object

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.Series.drop_duplicates。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。