Python pyspark DataFrame.groupBy用法及代碼示例

本文簡要介紹 pyspark.sql.DataFrame.groupBy 的用法。

用法: DataFrame.groupBy(*cols)

使用指定的列對 DataFrame 進行分組，因此我們可以對它們運行聚合。有關所有可用的聚合函數，請參見 GroupedData 。

groupby() 是 groupBy() 的別名。

版本 1.3.0 中的新函數。

參數：

cols：列表、str 或 Column: 要分組的列。每個元素應該是一個列名(字符串)或一個表達式( Column )。

例子：

>>> df.groupBy().avg().collect()
[Row(avg(age)=3.5)]
>>> sorted(df.groupBy('name').agg({'age': 'mean'}).collect())
[Row(name='Alice', avg(age)=2.0), Row(name='Bob', avg(age)=5.0)]
>>> sorted(df.groupBy(df.name).avg().collect())
[Row(name='Alice', avg(age)=2.0), Row(name='Bob', avg(age)=5.0)]
>>> sorted(df.groupBy(['name', df.age]).count().collect())
[Row(name='Alice', age=2, count=1), Row(name='Bob', age=5, count=1)]

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrame.groupBy。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。