Python pandas.DataFrame.duplicated用法及代碼示例

用法: DataFrame.duplicated(subset=None, keep='first')

返回表示重複行的布爾係列。

考慮某些列是可選的。

參數：

subset：列標簽或標簽序列，可選

僅考慮某些列來識別重複項，默認情況下使用所有列。

keep：{‘first’, ‘last’, False}，默認 ‘first’

確定要標記的重複項(如果有)。

first ：將重複項標記為 True，但第一次出現除外。
last ：將重複項標記為 True，除了最後一次出現。
False：將所有重複項標記為 True 。

Series: 每個重複行的布爾係列。

例子：

考慮包含拉麵評級的數據集。

>>> df = pd.DataFrame({
...     'brand':['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
...     'style':['cup', 'cup', 'cup', 'pack', 'pack'],
...     'rating':[4, 4, 3.5, 15, 5]
... })
>>> df
    brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

默認情況下，對於每組重複值，第一次出現設置為 False，其他所有設置為 True。

>>> df.duplicated()
0    False
1     True
2    False
3    False
4    False
dtype:bool

通過使用‘last’，每組重複值的最後一次出現設置為False，所有其他重複值設置為True。

>>> df.duplicated(keep='last')
0     True
1    False
2    False
3    False
4    False
dtype:bool

通過將keep 設置為 False，所有重複項都為 True。

>>> df.duplicated(keep=False)
0     True
1     True
2    False
3    False
4    False
dtype:bool

要查找特定列上的重複項，請使用 subset 。

>>> df.duplicated(subset=['brand'])
0    False
1     True
2    False
3     True
4     True
dtype:bool

相關用法

注：本文由純淨天空篩選整理自pandas.pydata.org大神的英文原創作品 pandas.DataFrame.duplicated。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：

例子：