本文簡要介紹
pyspark.sql.DataFrame.describe
的用法。用法:
DataFrame.describe(*cols)
計算數字和字符串列的基本統計信息。
版本 1.3.1 中的新函數。
這包括計數、平均值、標準差、最小值和最大值。如果沒有給出列,則此函數計算所有數字或字符串列的統計信息。
注意:
此函數用於探索性數據分析,因為我們不保證生成的
DataFrame
的模式的向後兼容性。使用摘要來擴展統計信息並控製要計算的統計信息。
例子:
>>> df.describe(['age']).show() +-------+------------------+ |summary| age| +-------+------------------+ | count| 2| | mean| 3.5| | stddev|2.1213203435596424| | min| 2| | max| 5| +-------+------------------+ >>> df.describe().show() +-------+------------------+-----+ |summary| age| name| +-------+------------------+-----+ | count| 2| 2| | mean| 3.5| null| | stddev|2.1213203435596424| null| | min| 2|Alice| | max| 5| Bob| +-------+------------------+-----+
相關用法
- Python pyspark DataFrame.dropDuplicates用法及代碼示例
- Python pyspark DataFrame.div用法及代碼示例
- Python pyspark DataFrame.drop_duplicates用法及代碼示例
- Python pyspark DataFrame.dropna用法及代碼示例
- Python pyspark DataFrame.dtypes用法及代碼示例
- Python pyspark DataFrame.drop用法及代碼示例
- Python pyspark DataFrame.duplicated用法及代碼示例
- Python pyspark DataFrame.distinct用法及代碼示例
- Python pyspark DataFrame.droplevel用法及代碼示例
- Python pyspark DataFrame.diff用法及代碼示例
- Python pyspark DataFrame.dot用法及代碼示例
- Python pyspark DataFrame.to_latex用法及代碼示例
- Python pyspark DataFrame.align用法及代碼示例
- Python pyspark DataFrame.plot.bar用法及代碼示例
- Python pyspark DataFrame.to_delta用法及代碼示例
- Python pyspark DataFrame.quantile用法及代碼示例
- Python pyspark DataFrame.cumsum用法及代碼示例
- Python pyspark DataFrame.iloc用法及代碼示例
- Python pyspark DataFrame.printSchema用法及代碼示例
- Python pyspark DataFrame.to_table用法及代碼示例
- Python pyspark DataFrame.rmod用法及代碼示例
- Python pyspark DataFrame.to_pandas用法及代碼示例
- Python pyspark DataFrame.sum用法及代碼示例
- Python pyspark DataFrame.transform用法及代碼示例
- Python pyspark DataFrame.get用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrame.describe。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。