Python Pandas DataFrame duplicated方法用法及代码示例

Pandas DataFrame.duplicated(~) 方法返回一系列布尔值，其中 True 表示重复行。

1.subset | string 或array-like 或string | optional

要考虑的列的标签。默认情况下，会考虑所有列。

2. keep | boolean 或 string | optional

重复的标记规则：

默认情况下，keep="first" 。

Series，其中 True 表示重复行。

考虑以下 DataFrame ：

df = pd.DataFrame({"A":[1,2,1], "B":[3,4,3]})
df



   A  B
0  1  3
1  2  4
2  1  3

这里，第一行和第三行是重复的。

要标记除第一行之外的所有重复行：

df.duplicated()   # or explicitly set keep="first"



0    False
1    False
2     True
dtype: bool

要标记除最后一行之外的所有重复行：

df.duplicated(keep="last")



0     True
1    False
2    False
dtype: bool

要将所有重复行标记为 True ：

df.duplicated(keep=False)



0    True
1    False
2    True
dtype: bool

相关用法

注：本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 Pandas DataFrame | duplicated method。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。