Python PySpark DataFrame summary方法用法及代碼示例

PySpark DataFrame 的 summary(~) 方法返回一個 PySpark DataFrame，其中包含數字列的基本摘要統計信息。

參數

1.statistics | string | optional

要計算的統計數據。可用的有：

count
mean
stddev
min
max
任意百分位數(例如 "60%" )

默認情況下，計算以上所有以及 25%、50% 和 75% 的百分位數。

返回值

PySpark 數據幀(pyspark.sql.dataframe.DataFrame)。

例子

考慮以下PySpark DataFrame：

df = spark.createDataFrame([["Alex", 20], ["Bob", 24], ["Cathy", 22], ["Doge", 30]], ["name", "age"])
df.show()



+-----+---+
| name|age|
+-----+---+
| Alex| 20|
|  Bob| 24|
|Cathy| 22|
| Doge| 30|
+-----+---+

獲取PySpark DataFrame 數字列的匯總統計信息

我們DataFrame的匯總統計如下：

df.summary().show()



+-------+----+-----------------+
|summary|name|              age|
+-------+----+-----------------+
|  count|   4|                4|
|   mean|null|             24.0|
| stddev|null|4.320493798938574|
|    min|Alex|               20|
|    25%|null|               20|
|    50%|null|               22|
|    75%|null|               24|
|    max|Doge|               30|
+-------+----+-----------------+

僅計算某些匯總統計數據：

df.summary("max", "min").show()



+-------+----+---+
|summary|name|age|
+-------+----+---+
|    max|Doge| 30|
|    min|Alex| 20|
+-------+----+---+

獲取 PySpark DataFrame 中數字列的 n-th 百分位

計算第 60 個百分位數：

df.summary("60%").show()



+-------+----+---+
|summary|name|age|
+-------+----+---+
|    60%|null| 24|
+-------+----+---+

獲取 PySpark DataFrame 中某些列的匯總統計信息

要匯總某些列，請首先使用 select(~) 方法來選擇要匯總的列：

df.select("age").summary("max", "min").show()



+-------+---+
|summary|age|
+-------+---+
|    max| 30|
|    min| 20|
+-------+---+

相關用法

注：本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark DataFrame | summary method。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。