PySpark DataFrame 的 describe(~)
方法返回一個新的 PySpark DataFrame,其中保存指定列的摘要統計信息。
參數
1.*cols
| string
| optional
默認情況下,將說明所有數字和字符串列。
返回值
PySpark 數據幀。
例子
考慮以下PySpark DataFrame:
df = spark.createDataFrame([["Alex", 20], ["Bob", 25], ["Bob", 30]], ["name", "age"])
df.show()
+----+---+
|name|age|
+----+---+
|Alex| 20|
| Bob| 25|
| Bob| 30|
+----+---+
獲取 PySpark DataFrame 中某些列的匯總統計信息
要獲取 name
和 age
列的摘要統計信息:
df.describe("name","age").show()
+-------+----+----+
|summary|name| age|
+-------+----+----+
| count| 3| 3|
| mean|null|25.0|
| stddev|null| 5.0|
| min|Alex| 20|
| max| Bob| 30|
+-------+----+----+
獲取 PySpark DataFrame 中所有數字和字符串列的匯總統計信息
要獲取所有數字和字符串列的摘要統計信息:
df.describe().show()
+-------+----+----+
|summary|name| age|
+-------+----+----+
| count| 3| 3|
| mean|null|25.0|
| stddev|null| 5.0|
| min|Alex| 20|
| max| Bob| 30|
+-------+----+----+
相關用法
- Python Pandas DataFrame describe方法用法及代碼示例
- Python PySpark DataFrame dtypes屬性用法及代碼示例
- Python PySpark DataFrame drop方法用法及代碼示例
- Python Pandas DataFrame dtypes屬性用法及代碼示例
- Python PySpark DataFrame dropDuplicates方法用法及代碼示例
- Python Pandas DataFrame duplicated方法用法及代碼示例
- Python Pandas DataFrame drop_duplicates方法用法及代碼示例
- Python Pandas DataFrame diff方法用法及代碼示例
- Python Pandas DataFrame dot方法用法及代碼示例
- Python Pandas DataFrame div方法用法及代碼示例
- Python Pandas DataFrame drop方法用法及代碼示例
- Python Pandas DataFrame droplevel方法用法及代碼示例
- Python PySpark DataFrame dropna方法用法及代碼示例
- Python Pandas DataFrame dropna方法用法及代碼示例
- Python PySpark DataFrame distinct方法用法及代碼示例
- Python Pandas DataFrame empty屬性用法及代碼示例
- Python Pandas DataFrame pop方法用法及代碼示例
- Python Pandas DataFrame nsmallest方法用法及代碼示例
- Python Pandas DataFrame sample方法用法及代碼示例
- Python Pandas DataFrame items方法用法及代碼示例
- Python Pandas DataFrame max方法用法及代碼示例
- Python Pandas DataFrame swaplevel方法用法及代碼示例
- Python Pandas DataFrame agg方法用法及代碼示例
- Python Pandas DataFrame copy方法用法及代碼示例
- Python Pandas DataFrame pow方法用法及代碼示例
注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark DataFrame | describe method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。