当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PySpark DataFrame summary方法用法及代码示例


PySpark DataFrame 的 summary(~) 方法返回一个 PySpark DataFrame,其中包含数字列的基本摘要统计信息。

参数

1.statistics | string | optional

要计算的统计数据。可用的有:

  • count

  • mean

  • stddev

  • min

  • max

  • 任意百分位数(例如 "60%" )

默认情况下,计算以上所有以及 25%、50% 和 75% 的百分位数。

返回值

PySpark 数据帧(pyspark.sql.dataframe.DataFrame)。

例子

考虑以下PySpark DataFrame:

df = spark.createDataFrame([["Alex", 20], ["Bob", 24], ["Cathy", 22], ["Doge", 30]], ["name", "age"])
df.show()



+-----+---+
| name|age|
+-----+---+
| Alex| 20|
|  Bob| 24|
|Cathy| 22|
| Doge| 30|
+-----+---+

获取PySpark DataFrame 数字列的汇总统计信息

我们DataFrame的汇总统计如下:

df.summary().show()



+-------+----+-----------------+
|summary|name|              age|
+-------+----+-----------------+
|  count|   4|                4|
|   mean|null|             24.0|
| stddev|null|4.320493798938574|
|    min|Alex|               20|
|    25%|null|               20|
|    50%|null|               22|
|    75%|null|               24|
|    max|Doge|               30|
+-------+----+-----------------+

仅计算某些汇总统计数据:

df.summary("max", "min").show()



+-------+----+---+
|summary|name|age|
+-------+----+---+
|    max|Doge| 30|
|    min|Alex| 20|
+-------+----+---+

获取 PySpark DataFrame 中数字列的 n-th 百分位

计算第 60 个百分位数:

df.summary("60%").show()



+-------+----+---+
|summary|name|age|
+-------+----+---+
|    60%|null| 24|
+-------+----+---+

获取 PySpark DataFrame 中某些列的汇总统计信息

要汇总某些列,请首先使用 select(~) 方法来选择要汇总的列:

df.select("age").summary("max", "min").show()



+-------+---+
|summary|age|
+-------+---+
|    max| 30|
|    min| 20|
+-------+---+

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark DataFrame | summary method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。