本文簡要介紹
pyspark.pandas.DataFrame.duplicated
的用法。用法:
DataFrame.duplicated(subset: Union[Any, Tuple[Any, …], List[Union[Any, Tuple[Any, …]]], None] = None, keep: str = 'first') → Series
返回表示重複行的布爾係列,可選擇僅考慮某些列。
- subset:列標簽或標簽序列,可選
僅考慮某些列來識別重複項,默認情況下使用所有列
- keep:{‘first’, ‘last’, False},默認 ‘first’
first
:將重複項標記為True
,但第一次出現除外。last
:將重複項標記為True
,最後一次出現除外。False :將所有重複項標記為
True
。
- duplicated:Series
參數:
返回:
例子:
>>> df = ps.DataFrame({'a': [1, 1, 1, 3], 'b': [1, 1, 1, 4], 'c': [1, 1, 1, 5]}, ... columns = ['a', 'b', 'c']) >>> df a b c 0 1 1 1 1 1 1 1 2 1 1 1 3 3 4 5
>>> df.duplicated().sort_index() 0 False 1 True 2 True 3 False dtype: bool
將重複項標記為
True
,最後一次出現的除外。>>> df.duplicated(keep='last').sort_index() 0 True 1 True 2 False 3 False dtype: bool
將所有重複項標記為
True
。>>> df.duplicated(keep=False).sort_index() 0 True 1 True 2 True 3 False dtype: bool
相關用法
- Python pyspark DataFrame.dropDuplicates用法及代碼示例
- Python pyspark DataFrame.div用法及代碼示例
- Python pyspark DataFrame.drop_duplicates用法及代碼示例
- Python pyspark DataFrame.dropna用法及代碼示例
- Python pyspark DataFrame.dtypes用法及代碼示例
- Python pyspark DataFrame.drop用法及代碼示例
- Python pyspark DataFrame.distinct用法及代碼示例
- Python pyspark DataFrame.droplevel用法及代碼示例
- Python pyspark DataFrame.describe用法及代碼示例
- Python pyspark DataFrame.diff用法及代碼示例
- Python pyspark DataFrame.dot用法及代碼示例
- Python pyspark DataFrame.to_latex用法及代碼示例
- Python pyspark DataFrame.align用法及代碼示例
- Python pyspark DataFrame.plot.bar用法及代碼示例
- Python pyspark DataFrame.to_delta用法及代碼示例
- Python pyspark DataFrame.quantile用法及代碼示例
- Python pyspark DataFrame.cumsum用法及代碼示例
- Python pyspark DataFrame.iloc用法及代碼示例
- Python pyspark DataFrame.printSchema用法及代碼示例
- Python pyspark DataFrame.to_table用法及代碼示例
- Python pyspark DataFrame.rmod用法及代碼示例
- Python pyspark DataFrame.to_pandas用法及代碼示例
- Python pyspark DataFrame.sum用法及代碼示例
- Python pyspark DataFrame.transform用法及代碼示例
- Python pyspark DataFrame.get用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.DataFrame.duplicated。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。