当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataFrameGroupBy.describe用法及代码示例


本文简要介绍 pyspark.pandas.groupby.DataFrameGroupBy.describe 的用法。

用法:

DataFrameGroupBy.describe() → pyspark.pandas.frame.DataFrame

生成说明性统计数据,总结数据集分布的集中趋势、离散度和形状,不包括 NaN 值。

分析数字和对象系列,以及混合数据类型的DataFrame 列集。输出将根据提供的内容而有所不同。有关详细信息,请参阅下面的注释。

注意

与 pandas 不同,pandas-on-Spark 中的百分位数基于近似百分位数计算,因为跨大型数据集计算百分位数非常昂贵。

返回

DataFrame

提供的 DataFrame 的摘要统计数据。

例子

>>> df = ps.DataFrame({'a': [1, 1, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]})
>>> df
   a  b  c
0  1  4  7
1  1  5  8
2  3  6  9

说明 DataFrame 。默认情况下,仅返回数字字段。

>>> described = df.groupby('a').describe()
>>> described.sort_index()  
      b                                        c
  count mean       std min 25% 50% 75% max count mean       std min 25% 50% 75% max
a
1   2.0  4.5  0.707107 4.0 4.0 4.0 5.0 5.0   2.0  7.5  0.707107 7.0 7.0 7.0 8.0 8.0
3   1.0  6.0       NaN 6.0 6.0 6.0 6.0 6.0   1.0  9.0       NaN 9.0 9.0 9.0 9.0 9.0

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.groupby.DataFrameGroupBy.describe。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。