Python pyspark DataFrame.summary用法及代码示例

本文简要介绍 pyspark.sql.DataFrame.summary 的用法。

用法: DataFrame.summary(*statistics)

计算数字和字符串列的指定统计信息。可用的统计数据有： - count - mean - stddev - min - max - 指定为百分比的任意近似百分位数(例如，75%)

如果没有给出统计数据，此函数计算计数、平均值、标准差、最小值、近似四分位数(25%、50% 和 75% 处的百分位数)和最大值。

2.3.0 版中的新函数。

注意：

此函数用于探索性数据分析，因为我们不保证生成的 DataFrame 的模式的向后兼容性。

例子：

>>> df.summary().show()
+-------+------------------+-----+
|summary|               age| name|
+-------+------------------+-----+
|  count|                 2|    2|
|   mean|               3.5| null|
| stddev|2.1213203435596424| null|
|    min|                 2|Alice|
|    25%|                 2| null|
|    50%|                 2| null|
|    75%|                 5| null|
|    max|                 5|  Bob|
+-------+------------------+-----+

>>> df.summary("count", "min", "25%", "75%", "max").show()
+-------+---+-----+
|summary|age| name|
+-------+---+-----+
|  count|  2|    2|
|    min|  2|Alice|
|    25%|  2| null|
|    75%|  5| null|
|    max|  5|  Bob|
+-------+---+-----+

要对特定列进行摘要，首先选择它们：

>>> df.select("age", "name").summary("count").show()
+-------+---+----+
|summary|age|name|
+-------+---+----+
|  count|  2|   2|
+-------+---+----+

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrame.summary。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。