本文简要介绍
pyspark.sql.DataFrame.describe
的用法。用法:
DataFrame.describe(*cols)
计算数字和字符串列的基本统计信息。
版本 1.3.1 中的新函数。
这包括计数、平均值、标准差、最小值和最大值。如果没有给出列,则此函数计算所有数字或字符串列的统计信息。
注意:
此函数用于探索性数据分析,因为我们不保证生成的
DataFrame
的模式的向后兼容性。使用摘要来扩展统计信息并控制要计算的统计信息。
例子:
>>> df.describe(['age']).show() +-------+------------------+ |summary| age| +-------+------------------+ | count| 2| | mean| 3.5| | stddev|2.1213203435596424| | min| 2| | max| 5| +-------+------------------+ >>> df.describe().show() +-------+------------------+-----+ |summary| age| name| +-------+------------------+-----+ | count| 2| 2| | mean| 3.5| null| | stddev|2.1213203435596424| null| | min| 2|Alice| | max| 5| Bob| +-------+------------------+-----+
相关用法
- Python pyspark DataFrame.dropDuplicates用法及代码示例
- Python pyspark DataFrame.div用法及代码示例
- Python pyspark DataFrame.drop_duplicates用法及代码示例
- Python pyspark DataFrame.dropna用法及代码示例
- Python pyspark DataFrame.dtypes用法及代码示例
- Python pyspark DataFrame.drop用法及代码示例
- Python pyspark DataFrame.duplicated用法及代码示例
- Python pyspark DataFrame.distinct用法及代码示例
- Python pyspark DataFrame.droplevel用法及代码示例
- Python pyspark DataFrame.diff用法及代码示例
- Python pyspark DataFrame.dot用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark DataFrame.quantile用法及代码示例
- Python pyspark DataFrame.cumsum用法及代码示例
- Python pyspark DataFrame.iloc用法及代码示例
- Python pyspark DataFrame.printSchema用法及代码示例
- Python pyspark DataFrame.to_table用法及代码示例
- Python pyspark DataFrame.rmod用法及代码示例
- Python pyspark DataFrame.to_pandas用法及代码示例
- Python pyspark DataFrame.sum用法及代码示例
- Python pyspark DataFrame.transform用法及代码示例
- Python pyspark DataFrame.get用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrame.describe。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。