本文簡要介紹
pyspark.sql.DataFrame.summary
的用法。用法:
DataFrame.summary(*statistics)
計算數字和字符串列的指定統計信息。可用的統計數據有: - count - mean - stddev - min - max - 指定為百分比的任意近似百分位數(例如,75%)
如果沒有給出統計數據,此函數計算計數、平均值、標準差、最小值、近似四分位數(25%、50% 和 75% 處的百分位數)和最大值。
2.3.0 版中的新函數。
注意:
此函數用於探索性數據分析,因為我們不保證生成的
DataFrame
的模式的向後兼容性。例子:
>>> df.summary().show() +-------+------------------+-----+ |summary| age| name| +-------+------------------+-----+ | count| 2| 2| | mean| 3.5| null| | stddev|2.1213203435596424| null| | min| 2|Alice| | 25%| 2| null| | 50%| 2| null| | 75%| 5| null| | max| 5| Bob| +-------+------------------+-----+
>>> df.summary("count", "min", "25%", "75%", "max").show() +-------+---+-----+ |summary|age| name| +-------+---+-----+ | count| 2| 2| | min| 2|Alice| | 25%| 2| null| | 75%| 5| null| | max| 5| Bob| +-------+---+-----+
要對特定列進行摘要,首先選擇它們:
>>> df.select("age", "name").summary("count").show() +-------+---+----+ |summary|age|name| +-------+---+----+ | count| 2| 2| +-------+---+----+
相關用法
- Python pyspark DataFrame.sum用法及代碼示例
- Python pyspark DataFrame.sub用法及代碼示例
- Python pyspark DataFrame.sort_index用法及代碼示例
- Python pyspark DataFrame.sem用法及代碼示例
- Python pyspark DataFrame.sort_values用法及代碼示例
- Python pyspark DataFrame.sampleBy用法及代碼示例
- Python pyspark DataFrame.select用法及代碼示例
- Python pyspark DataFrame.style用法及代碼示例
- Python pyspark DataFrame.spark.to_table用法及代碼示例
- Python pyspark DataFrame.sortWithinPartitions用法及代碼示例
- Python pyspark DataFrame.skew用法及代碼示例
- Python pyspark DataFrame.spark.frame用法及代碼示例
- Python pyspark DataFrame.set_index用法及代碼示例
- Python pyspark DataFrame.shape用法及代碼示例
- Python pyspark DataFrame.sample用法及代碼示例
- Python pyspark DataFrame.std用法及代碼示例
- Python pyspark DataFrame.spark.cache用法及代碼示例
- Python pyspark DataFrame.schema用法及代碼示例
- Python pyspark DataFrame.spark.persist用法及代碼示例
- Python pyspark DataFrame.size用法及代碼示例
- Python pyspark DataFrame.spark.to_spark_io用法及代碼示例
- Python pyspark DataFrame.show用法及代碼示例
- Python pyspark DataFrame.spark.coalesce用法及代碼示例
- Python pyspark DataFrame.semanticHash用法及代碼示例
- Python pyspark DataFrame.spark.repartition用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrame.summary。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。