当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pandas.DataFrame.duplicated用法及代码示例


用法:

DataFrame.duplicated(subset=None, keep='first')

返回表示重复行的布尔系列。

考虑某些列是可选的。

参数

subset列标签或标签序列,可选

仅考虑某些列来识别重复项,默认情况下使用所有列。

keep{‘first’, ‘last’, False},默认 ‘first’

确定要标记的重复项(如果有)。

  • first :将重复项标记为 True,但第一次出现除外。

  • last :将重复项标记为 True,除了最后一次出现。

  • False:将所有重复项标记为 True

返回

Series

每个重复行的布尔系列。

例子

考虑包含拉面评级的数据集。

>>> df = pd.DataFrame({
...     'brand':['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
...     'style':['cup', 'cup', 'cup', 'pack', 'pack'],
...     'rating':[4, 4, 3.5, 15, 5]
... })
>>> df
    brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

默认情况下,对于每组重复值,第一次出现设置为 False,其他所有设置为 True。

>>> df.duplicated()
0    False
1     True
2    False
3    False
4    False
dtype:bool

通过使用‘last’,每组重复值的最后一次出现设置为False,所有其他重复值设置为True。

>>> df.duplicated(keep='last')
0     True
1    False
2    False
3    False
4    False
dtype:bool

通过将keep 设置为 False,所有重复项都为 True。

>>> df.duplicated(keep=False)
0     True
1     True
2    False
3    False
4    False
dtype:bool

要查找特定列上的重复项,请使用 subset

>>> df.duplicated(subset=['brand'])
0    False
1     True
2    False
3     True
4     True
dtype:bool

相关用法


注:本文由纯净天空筛选整理自pandas.pydata.org大神的英文原创作品 pandas.DataFrame.duplicated。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。