當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark DataFrame.duplicated用法及代碼示例


本文簡要介紹 pyspark.pandas.DataFrame.duplicated 的用法。

用法:

DataFrame.duplicated(subset: Union[Any, Tuple[Any, …], List[Union[Any, Tuple[Any, …]]], None] = None, keep: str = 'first') → Series

返回表示重複行的布爾係列,可選擇僅考慮某些列。

參數

subset列標簽或標簽序列,可選

僅考慮某些列來識別重複項,默認情況下使用所有列

keep{‘first’, ‘last’, False},默認 ‘first’
  • first :將重複項標記為True,但第一次出現除外。

  • last :將重複項標記為 True,最後一次出現除外。

  • False :將所有重複項標記為 True

返回

duplicatedSeries

例子

>>> df = ps.DataFrame({'a': [1, 1, 1, 3], 'b': [1, 1, 1, 4], 'c': [1, 1, 1, 5]},
...                   columns = ['a', 'b', 'c'])
>>> df
   a  b  c
0  1  1  1
1  1  1  1
2  1  1  1
3  3  4  5
>>> df.duplicated().sort_index()
0    False
1     True
2     True
3    False
dtype: bool

將重複項標記為True,最後一次出現的除外。

>>> df.duplicated(keep='last').sort_index()
0     True
1     True
2    False
3    False
dtype: bool

將所有重複項標記為 True

>>> df.duplicated(keep=False).sort_index()
0     True
1     True
2     True
3    False
dtype: bool

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.DataFrame.duplicated。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。