Python pyspark DataFrameGroupBy.describe用法及代碼示例

本文簡要介紹 pyspark.pandas.groupby.DataFrameGroupBy.describe 的用法。

用法: DataFrameGroupBy.describe() → pyspark.pandas.frame.DataFrame

生成說明性統計數據，總結數據集分布的集中趨勢、離散度和形狀，不包括 NaN 值。

分析數字和對象係列，以及混合數據類型的DataFrame 列集。輸出將根據提供的內容而有所不同。有關詳細信息，請參閱下麵的注釋。

注意

與 pandas 不同，pandas-on-Spark 中的百分位數基於近似百分位數計算，因為跨大型數據集計算百分位數非常昂貴。

DataFrame: 提供的 DataFrame 的摘要統計數據。

例子：

>>> df = ps.DataFrame({'a': [1, 1, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]})
>>> df
   a  b  c
0  1  4  7
1  1  5  8
2  3  6  9

說明 DataFrame 。默認情況下，僅返回數字字段。

>>> described = df.groupby('a').describe()
>>> described.sort_index()  
      b                                        c
  count mean       std min 25% 50% 75% max count mean       std min 25% 50% 75% max
a
1   2.0  4.5  0.707107 4.0 4.0 4.0 5.0 5.0   2.0  7.5  0.707107 7.0 7.0 7.0 8.0 8.0
3   1.0  6.0       NaN 6.0 6.0 6.0 6.0 6.0   1.0  9.0       NaN 9.0 9.0 9.0 9.0 9.0

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.groupby.DataFrameGroupBy.describe。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

返回：

例子：