PySpark DataFrame 的 summary(~)
方法返回一個 PySpark DataFrame,其中包含數字列的基本摘要統計信息。
參數
1.statistics
| string
| optional
要計算的統計數據。可用的有:
-
count
-
mean
-
stddev
-
min
-
max
-
任意百分位數(例如
"60%"
)
默認情況下,計算以上所有以及 25%、50% 和 75% 的百分位數。
返回值
PySpark 數據幀(pyspark.sql.dataframe.DataFrame
)。
例子
考慮以下PySpark DataFrame:
df = spark.createDataFrame([["Alex", 20], ["Bob", 24], ["Cathy", 22], ["Doge", 30]], ["name", "age"])
df.show()
+-----+---+
| name|age|
+-----+---+
| Alex| 20|
| Bob| 24|
|Cathy| 22|
| Doge| 30|
+-----+---+
獲取PySpark DataFrame 數字列的匯總統計信息
我們DataFrame的匯總統計如下:
df.summary().show()
+-------+----+-----------------+
|summary|name| age|
+-------+----+-----------------+
| count| 4| 4|
| mean|null| 24.0|
| stddev|null|4.320493798938574|
| min|Alex| 20|
| 25%|null| 20|
| 50%|null| 22|
| 75%|null| 24|
| max|Doge| 30|
+-------+----+-----------------+
僅計算某些匯總統計數據:
df.summary("max", "min").show()
+-------+----+---+
|summary|name|age|
+-------+----+---+
| max|Doge| 30|
| min|Alex| 20|
+-------+----+---+
獲取 PySpark DataFrame 中數字列的 n-th 百分位
計算第 60 個百分位數:
df.summary("60%").show()
+-------+----+---+
|summary|name|age|
+-------+----+---+
| 60%|null| 24|
+-------+----+---+
獲取 PySpark DataFrame 中某些列的匯總統計信息
要匯總某些列,請首先使用 select(~)
方法來選擇要匯總的列:
df.select("age").summary("max", "min").show()
+-------+---+
|summary|age|
+-------+---+
| max| 30|
| min| 20|
+-------+---+
相關用法
- Python Pandas DataFrame sum方法用法及代碼示例
- Python Pandas DataFrame sub方法用法及代碼示例
- Python Pandas DataFrame sample方法用法及代碼示例
- Python Pandas DataFrame swaplevel方法用法及代碼示例
- Python PySpark DataFrame sampleBy方法用法及代碼示例
- Python Pandas DataFrame set_axis方法用法及代碼示例
- Python Pandas DataFrame select_dtypes方法用法及代碼示例
- Python PySpark DataFrame selectExpr方法用法及代碼示例
- Python PySpark DataFrame show方法用法及代碼示例
- Python PySpark DataFrame select方法用法及代碼示例
- Python Pandas DataFrame stack方法用法及代碼示例
- Python Pandas DataFrame shift方法用法及代碼示例
- Python Pandas DataFrame sort_index方法用法及代碼示例
- Python Pandas DataFrame size屬性用法及代碼示例
- Python Pandas DataFrame set_index方法用法及代碼示例
- Python Pandas DataFrame swapaxes方法用法及代碼示例
- Python PySpark DataFrame sort方法用法及代碼示例
- Python PySpark DataFrame sample方法用法及代碼示例
- Python Pandas DataFrame sem方法用法及代碼示例
- Python Pandas DataFrame std方法用法及代碼示例
- Python Pandas DataFrame shape屬性用法及代碼示例
- Python Pandas DataFrame sort_values方法用法及代碼示例
- Python Pandas DataFrame slice_shift方法用法及代碼示例
- Python Pandas DataFrame squeeze方法用法及代碼示例
- Python Pandas DataFrame empty屬性用法及代碼示例
注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark DataFrame | summary method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。