Python Pandas DataFrame duplicated方法用法及代碼示例

Pandas DataFrame.duplicated(~) 方法返回一係列布爾值，其中 True 表示重複行。

1.subset | string 或array-like 或string | optional

要考慮的列的標簽。默認情況下，會考慮所有列。

2. keep | boolean 或 string | optional

重複的標記規則：

默認情況下，keep="first" 。

Series，其中 True 表示重複行。

考慮以下 DataFrame ：

df = pd.DataFrame({"A":[1,2,1], "B":[3,4,3]})
df



   A  B
0  1  3
1  2  4
2  1  3

這裏，第一行和第三行是重複的。

要標記除第一行之外的所有重複行：

df.duplicated()   # or explicitly set keep="first"



0    False
1    False
2     True
dtype: bool

要標記除最後一行之外的所有重複行：

df.duplicated(keep="last")



0     True
1    False
2    False
dtype: bool

要將所有重複行標記為 True ：

df.duplicated(keep=False)



0    True
1    False
2    True
dtype: bool

相關用法

注：本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 Pandas DataFrame | duplicated method。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。