本文简要介绍
pyspark.pandas.DataFrame.duplicated
的用法。用法:
DataFrame.duplicated(subset: Union[Any, Tuple[Any, …], List[Union[Any, Tuple[Any, …]]], None] = None, keep: str = 'first') → Series
返回表示重复行的布尔系列,可选择仅考虑某些列。
- subset:列标签或标签序列,可选
仅考虑某些列来识别重复项,默认情况下使用所有列
- keep:{‘first’, ‘last’, False},默认 ‘first’
first
:将重复项标记为True
,但第一次出现除外。last
:将重复项标记为True
,最后一次出现除外。False :将所有重复项标记为
True
。
- duplicated:Series
参数:
返回:
例子:
>>> df = ps.DataFrame({'a': [1, 1, 1, 3], 'b': [1, 1, 1, 4], 'c': [1, 1, 1, 5]}, ... columns = ['a', 'b', 'c']) >>> df a b c 0 1 1 1 1 1 1 1 2 1 1 1 3 3 4 5
>>> df.duplicated().sort_index() 0 False 1 True 2 True 3 False dtype: bool
将重复项标记为
True
,最后一次出现的除外。>>> df.duplicated(keep='last').sort_index() 0 True 1 True 2 False 3 False dtype: bool
将所有重复项标记为
True
。>>> df.duplicated(keep=False).sort_index() 0 True 1 True 2 True 3 False dtype: bool
相关用法
- Python pyspark DataFrame.dropDuplicates用法及代码示例
- Python pyspark DataFrame.div用法及代码示例
- Python pyspark DataFrame.drop_duplicates用法及代码示例
- Python pyspark DataFrame.dropna用法及代码示例
- Python pyspark DataFrame.dtypes用法及代码示例
- Python pyspark DataFrame.drop用法及代码示例
- Python pyspark DataFrame.distinct用法及代码示例
- Python pyspark DataFrame.droplevel用法及代码示例
- Python pyspark DataFrame.describe用法及代码示例
- Python pyspark DataFrame.diff用法及代码示例
- Python pyspark DataFrame.dot用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark DataFrame.quantile用法及代码示例
- Python pyspark DataFrame.cumsum用法及代码示例
- Python pyspark DataFrame.iloc用法及代码示例
- Python pyspark DataFrame.printSchema用法及代码示例
- Python pyspark DataFrame.to_table用法及代码示例
- Python pyspark DataFrame.rmod用法及代码示例
- Python pyspark DataFrame.to_pandas用法及代码示例
- Python pyspark DataFrame.sum用法及代码示例
- Python pyspark DataFrame.transform用法及代码示例
- Python pyspark DataFrame.get用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.duplicated。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。