當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pandas.DataFrame.duplicated用法及代碼示例


用法:

DataFrame.duplicated(subset=None, keep='first')

返回表示重複行的布爾係列。

考慮某些列是可選的。

參數

subset列標簽或標簽序列,可選

僅考慮某些列來識別重複項,默認情況下使用所有列。

keep{‘first’, ‘last’, False},默認 ‘first’

確定要標記的重複項(如果有)。

  • first :將重複項標記為 True,但第一次出現除外。

  • last :將重複項標記為 True,除了最後一次出現。

  • False:將所有重複項標記為 True

返回

Series

每個重複行的布爾係列。

例子

考慮包含拉麵評級的數據集。

>>> df = pd.DataFrame({
...     'brand':['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
...     'style':['cup', 'cup', 'cup', 'pack', 'pack'],
...     'rating':[4, 4, 3.5, 15, 5]
... })
>>> df
    brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

默認情況下,對於每組重複值,第一次出現設置為 False,其他所有設置為 True。

>>> df.duplicated()
0    False
1     True
2    False
3    False
4    False
dtype:bool

通過使用‘last’,每組重複值的最後一次出現設置為False,所有其他重複值設置為True。

>>> df.duplicated(keep='last')
0     True
1    False
2    False
3    False
4    False
dtype:bool

通過將keep 設置為 False,所有重複項都為 True。

>>> df.duplicated(keep=False)
0     True
1     True
2    False
3    False
4    False
dtype:bool

要查找特定列上的重複項,請使用 subset

>>> df.duplicated(subset=['brand'])
0    False
1     True
2    False
3     True
4     True
dtype:bool

相關用法


注:本文由純淨天空篩選整理自pandas.pydata.org大神的英文原創作品 pandas.DataFrame.duplicated。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。