Python PySpark DataFrame summary方法用法及代码示例

PySpark DataFrame 的 summary(~) 方法返回一个 PySpark DataFrame，其中包含数字列的基本摘要统计信息。

参数

1.statistics | string | optional

要计算的统计数据。可用的有：

count
mean
stddev
min
max
任意百分位数(例如 "60%" )

默认情况下，计算以上所有以及 25%、50% 和 75% 的百分位数。

返回值

PySpark 数据帧(pyspark.sql.dataframe.DataFrame)。

例子

考虑以下PySpark DataFrame：

df = spark.createDataFrame([["Alex", 20], ["Bob", 24], ["Cathy", 22], ["Doge", 30]], ["name", "age"])
df.show()



+-----+---+
| name|age|
+-----+---+
| Alex| 20|
|  Bob| 24|
|Cathy| 22|
| Doge| 30|
+-----+---+

获取PySpark DataFrame 数字列的汇总统计信息

我们DataFrame的汇总统计如下：

df.summary().show()



+-------+----+-----------------+
|summary|name|              age|
+-------+----+-----------------+
|  count|   4|                4|
|   mean|null|             24.0|
| stddev|null|4.320493798938574|
|    min|Alex|               20|
|    25%|null|               20|
|    50%|null|               22|
|    75%|null|               24|
|    max|Doge|               30|
+-------+----+-----------------+

仅计算某些汇总统计数据：

df.summary("max", "min").show()



+-------+----+---+
|summary|name|age|
+-------+----+---+
|    max|Doge| 30|
|    min|Alex| 20|
+-------+----+---+

获取 PySpark DataFrame 中数字列的 n-th 百分位

计算第 60 个百分位数：

df.summary("60%").show()



+-------+----+---+
|summary|name|age|
+-------+----+---+
|    60%|null| 24|
+-------+----+---+

获取 PySpark DataFrame 中某些列的汇总统计信息

要汇总某些列，请首先使用 select(~) 方法来选择要汇总的列：

df.select("age").summary("max", "min").show()



+-------+---+
|summary|age|
+-------+---+
|    max| 30|
|    min| 20|
+-------+---+

相关用法

注：本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark DataFrame | summary method。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。