PySpark DataFrame 的 distinct()
方法返回一个包含不同行的新 DataFrame。
参数
该方法不接受任何参数。
返回值
PySpark 数据帧 (pyspark.sql.dataframe.DataFrame
)。
例子
考虑以下PySpark DataFrame:
df = spark.createDataFrame([["Alex", 25], ["Bob", 30], ["Alex", 25], ["Alex", 50]], ["name", "age"])
df.show()
+----+---+
|name|age|
+----+---+
|Alex| 25|
| Bob| 30|
|Alex| 25|
|Alex| 50|
+----+---+
获取 PySpark DataFrame 的所有不同行
要获取 PySpark DataFrame 的所有不同行,请使用 distinct()
方法:
df.distinct().show()
+----+---+
|name|age|
+----+---+
|Alex| 25|
| Bob| 30|
|Alex| 50|
+----+---+
计算 PySpark DataFrame 的不同行数
要计算 PySpark DataFrame 的不同行数:
df.distinct().count()
3
相关用法
- Python Pandas DataFrame diff方法用法及代码示例
- Python Pandas DataFrame div方法用法及代码示例
- Python PySpark DataFrame dtypes属性用法及代码示例
- Python PySpark DataFrame drop方法用法及代码示例
- Python Pandas DataFrame dtypes属性用法及代码示例
- Python PySpark DataFrame dropDuplicates方法用法及代码示例
- Python Pandas DataFrame duplicated方法用法及代码示例
- Python Pandas DataFrame drop_duplicates方法用法及代码示例
- Python Pandas DataFrame dot方法用法及代码示例
- Python Pandas DataFrame describe方法用法及代码示例
- Python PySpark DataFrame describe方法用法及代码示例
- Python Pandas DataFrame drop方法用法及代码示例
- Python Pandas DataFrame droplevel方法用法及代码示例
- Python PySpark DataFrame dropna方法用法及代码示例
- Python Pandas DataFrame dropna方法用法及代码示例
- Python Pandas DataFrame empty属性用法及代码示例
- Python Pandas DataFrame pop方法用法及代码示例
- Python Pandas DataFrame nsmallest方法用法及代码示例
- Python Pandas DataFrame sample方法用法及代码示例
- Python Pandas DataFrame items方法用法及代码示例
- Python Pandas DataFrame max方法用法及代码示例
- Python Pandas DataFrame swaplevel方法用法及代码示例
- Python Pandas DataFrame agg方法用法及代码示例
- Python Pandas DataFrame copy方法用法及代码示例
- Python Pandas DataFrame pow方法用法及代码示例
注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark DataFrame | distinct method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。