本文简要介绍
pyspark.sql.DataFrame.summary
的用法。用法:
DataFrame.summary(*statistics)
计算数字和字符串列的指定统计信息。可用的统计数据有: - count - mean - stddev - min - max - 指定为百分比的任意近似百分位数(例如,75%)
如果没有给出统计数据,此函数计算计数、平均值、标准差、最小值、近似四分位数(25%、50% 和 75% 处的百分位数)和最大值。
2.3.0 版中的新函数。
注意:
此函数用于探索性数据分析,因为我们不保证生成的
DataFrame
的模式的向后兼容性。例子:
>>> df.summary().show() +-------+------------------+-----+ |summary| age| name| +-------+------------------+-----+ | count| 2| 2| | mean| 3.5| null| | stddev|2.1213203435596424| null| | min| 2|Alice| | 25%| 2| null| | 50%| 2| null| | 75%| 5| null| | max| 5| Bob| +-------+------------------+-----+
>>> df.summary("count", "min", "25%", "75%", "max").show() +-------+---+-----+ |summary|age| name| +-------+---+-----+ | count| 2| 2| | min| 2|Alice| | 25%| 2| null| | 75%| 5| null| | max| 5| Bob| +-------+---+-----+
要对特定列进行摘要,首先选择它们:
>>> df.select("age", "name").summary("count").show() +-------+---+----+ |summary|age|name| +-------+---+----+ | count| 2| 2| +-------+---+----+
相关用法
- Python pyspark DataFrame.sum用法及代码示例
- Python pyspark DataFrame.sub用法及代码示例
- Python pyspark DataFrame.sort_index用法及代码示例
- Python pyspark DataFrame.sem用法及代码示例
- Python pyspark DataFrame.sort_values用法及代码示例
- Python pyspark DataFrame.sampleBy用法及代码示例
- Python pyspark DataFrame.select用法及代码示例
- Python pyspark DataFrame.style用法及代码示例
- Python pyspark DataFrame.spark.to_table用法及代码示例
- Python pyspark DataFrame.sortWithinPartitions用法及代码示例
- Python pyspark DataFrame.skew用法及代码示例
- Python pyspark DataFrame.spark.frame用法及代码示例
- Python pyspark DataFrame.set_index用法及代码示例
- Python pyspark DataFrame.shape用法及代码示例
- Python pyspark DataFrame.sample用法及代码示例
- Python pyspark DataFrame.std用法及代码示例
- Python pyspark DataFrame.spark.cache用法及代码示例
- Python pyspark DataFrame.schema用法及代码示例
- Python pyspark DataFrame.spark.persist用法及代码示例
- Python pyspark DataFrame.size用法及代码示例
- Python pyspark DataFrame.spark.to_spark_io用法及代码示例
- Python pyspark DataFrame.show用法及代码示例
- Python pyspark DataFrame.spark.coalesce用法及代码示例
- Python pyspark DataFrame.semanticHash用法及代码示例
- Python pyspark DataFrame.spark.repartition用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrame.summary。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。