Python pandas.DataFrame.duplicated用法及代码示例

用法: DataFrame.duplicated(subset=None, keep='first')

返回表示重复行的布尔系列。

考虑某些列是可选的。

参数：

subset：列标签或标签序列，可选

仅考虑某些列来识别重复项，默认情况下使用所有列。

keep：{‘first’, ‘last’, False}，默认 ‘first’

确定要标记的重复项(如果有)。

first ：将重复项标记为 True，但第一次出现除外。
last ：将重复项标记为 True，除了最后一次出现。
False：将所有重复项标记为 True 。

Series: 每个重复行的布尔系列。

例子：

考虑包含拉面评级的数据集。

>>> df = pd.DataFrame({
...     'brand':['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
...     'style':['cup', 'cup', 'cup', 'pack', 'pack'],
...     'rating':[4, 4, 3.5, 15, 5]
... })
>>> df
    brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

默认情况下，对于每组重复值，第一次出现设置为 False，其他所有设置为 True。

>>> df.duplicated()
0    False
1     True
2    False
3    False
4    False
dtype:bool

通过使用‘last’，每组重复值的最后一次出现设置为False，所有其他重复值设置为True。

>>> df.duplicated(keep='last')
0     True
1    False
2    False
3    False
4    False
dtype:bool

通过将keep 设置为 False，所有重复项都为 True。

>>> df.duplicated(keep=False)
0     True
1     True
2    False
3    False
4    False
dtype:bool

要查找特定列上的重复项，请使用 subset 。

>>> df.duplicated(subset=['brand'])
0    False
1     True
2    False
3     True
4     True
dtype:bool

相关用法

注：本文由纯净天空筛选整理自pandas.pydata.org大神的英文原创作品 pandas.DataFrame.duplicated。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

例子：