PySpark DataFrame 的 summary(~)
方法返回一个 PySpark DataFrame,其中包含数字列的基本摘要统计信息。
参数
1.statistics
| string
| optional
要计算的统计数据。可用的有:
-
count
-
mean
-
stddev
-
min
-
max
-
任意百分位数(例如
"60%"
)
默认情况下,计算以上所有以及 25%、50% 和 75% 的百分位数。
返回值
PySpark 数据帧(pyspark.sql.dataframe.DataFrame
)。
例子
考虑以下PySpark DataFrame:
df = spark.createDataFrame([["Alex", 20], ["Bob", 24], ["Cathy", 22], ["Doge", 30]], ["name", "age"])
df.show()
+-----+---+
| name|age|
+-----+---+
| Alex| 20|
| Bob| 24|
|Cathy| 22|
| Doge| 30|
+-----+---+
获取PySpark DataFrame 数字列的汇总统计信息
我们DataFrame的汇总统计如下:
df.summary().show()
+-------+----+-----------------+
|summary|name| age|
+-------+----+-----------------+
| count| 4| 4|
| mean|null| 24.0|
| stddev|null|4.320493798938574|
| min|Alex| 20|
| 25%|null| 20|
| 50%|null| 22|
| 75%|null| 24|
| max|Doge| 30|
+-------+----+-----------------+
仅计算某些汇总统计数据:
df.summary("max", "min").show()
+-------+----+---+
|summary|name|age|
+-------+----+---+
| max|Doge| 30|
| min|Alex| 20|
+-------+----+---+
获取 PySpark DataFrame 中数字列的 n-th 百分位
计算第 60 个百分位数:
df.summary("60%").show()
+-------+----+---+
|summary|name|age|
+-------+----+---+
| 60%|null| 24|
+-------+----+---+
获取 PySpark DataFrame 中某些列的汇总统计信息
要汇总某些列,请首先使用 select(~)
方法来选择要汇总的列:
df.select("age").summary("max", "min").show()
+-------+---+
|summary|age|
+-------+---+
| max| 30|
| min| 20|
+-------+---+
相关用法
- Python Pandas DataFrame sum方法用法及代码示例
- Python Pandas DataFrame sub方法用法及代码示例
- Python Pandas DataFrame sample方法用法及代码示例
- Python Pandas DataFrame swaplevel方法用法及代码示例
- Python PySpark DataFrame sampleBy方法用法及代码示例
- Python Pandas DataFrame set_axis方法用法及代码示例
- Python Pandas DataFrame select_dtypes方法用法及代码示例
- Python PySpark DataFrame selectExpr方法用法及代码示例
- Python PySpark DataFrame show方法用法及代码示例
- Python PySpark DataFrame select方法用法及代码示例
- Python Pandas DataFrame stack方法用法及代码示例
- Python Pandas DataFrame shift方法用法及代码示例
- Python Pandas DataFrame sort_index方法用法及代码示例
- Python Pandas DataFrame size属性用法及代码示例
- Python Pandas DataFrame set_index方法用法及代码示例
- Python Pandas DataFrame swapaxes方法用法及代码示例
- Python PySpark DataFrame sort方法用法及代码示例
- Python PySpark DataFrame sample方法用法及代码示例
- Python Pandas DataFrame sem方法用法及代码示例
- Python Pandas DataFrame std方法用法及代码示例
- Python Pandas DataFrame shape属性用法及代码示例
- Python Pandas DataFrame sort_values方法用法及代码示例
- Python Pandas DataFrame slice_shift方法用法及代码示例
- Python Pandas DataFrame squeeze方法用法及代码示例
- Python Pandas DataFrame empty属性用法及代码示例
注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark DataFrame | summary method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。