Python PySpark DataFrame describe方法用法及代碼示例

PySpark DataFrame 的 describe(~) 方法返回一個新的 PySpark DataFrame，其中保存指定列的摘要統計信息。

參數

1.*cols | string | optional

默認情況下，將說明所有數字和字符串列。

返回值

PySpark 數據幀。

例子

考慮以下PySpark DataFrame：

df = spark.createDataFrame([["Alex", 20], ["Bob", 25], ["Bob", 30]], ["name", "age"])
df.show()



+----+---+
|name|age|
+----+---+
|Alex| 20|
| Bob| 25|
| Bob| 30|
+----+---+

獲取 PySpark DataFrame 中某些列的匯總統計信息

要獲取 name 和 age 列的摘要統計信息：

df.describe("name","age").show()



+-------+----+----+
|summary|name| age|
+-------+----+----+
|  count|   3|   3|
|   mean|null|25.0|
| stddev|null| 5.0|
|    min|Alex|  20|
|    max| Bob|  30|
+-------+----+----+

獲取 PySpark DataFrame 中所有數字和字符串列的匯總統計信息

要獲取所有數字和字符串列的摘要統計信息：

df.describe().show()



+-------+----+----+
|summary|name| age|
+-------+----+----+
|  count|   3|   3|
|   mean|null|25.0|
| stddev|null| 5.0|
|    min|Alex|  20|
|    max| Bob|  30|
+-------+----+----+

相關用法

注：本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark DataFrame | describe method。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。