Python pyspark DataFrame.summary用法及代碼示例

本文簡要介紹 pyspark.sql.DataFrame.summary 的用法。

用法: DataFrame.summary(*statistics)

計算數字和字符串列的指定統計信息。可用的統計數據有： - count - mean - stddev - min - max - 指定為百分比的任意近似百分位數(例如，75%)

如果沒有給出統計數據，此函數計算計數、平均值、標準差、最小值、近似四分位數(25%、50% 和 75% 處的百分位數)和最大值。

2.3.0 版中的新函數。

注意：

此函數用於探索性數據分析，因為我們不保證生成的 DataFrame 的模式的向後兼容性。

例子：

>>> df.summary().show()
+-------+------------------+-----+
|summary|               age| name|
+-------+------------------+-----+
|  count|                 2|    2|
|   mean|               3.5| null|
| stddev|2.1213203435596424| null|
|    min|                 2|Alice|
|    25%|                 2| null|
|    50%|                 2| null|
|    75%|                 5| null|
|    max|                 5|  Bob|
+-------+------------------+-----+

>>> df.summary("count", "min", "25%", "75%", "max").show()
+-------+---+-----+
|summary|age| name|
+-------+---+-----+
|  count|  2|    2|
|    min|  2|Alice|
|    25%|  2| null|
|    75%|  5| null|
|    max|  5|  Bob|
+-------+---+-----+

要對特定列進行摘要，首先選擇它們：

>>> df.select("age", "name").summary("count").show()
+-------+---+----+
|summary|age|name|
+-------+---+----+
|  count|  2|   2|
+-------+---+----+

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrame.summary。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。