Python pyspark DataFrame.groupBy用法及代码示例

本文简要介绍 pyspark.sql.DataFrame.groupBy 的用法。

用法: DataFrame.groupBy(*cols)

使用指定的列对 DataFrame 进行分组，因此我们可以对它们运行聚合。有关所有可用的聚合函数，请参见 GroupedData 。

groupby() 是 groupBy() 的别名。

版本 1.3.0 中的新函数。

参数：

cols：列表、str 或 Column: 要分组的列。每个元素应该是一个列名(字符串)或一个表达式( Column )。

例子：

>>> df.groupBy().avg().collect()
[Row(avg(age)=3.5)]
>>> sorted(df.groupBy('name').agg({'age': 'mean'}).collect())
[Row(name='Alice', avg(age)=2.0), Row(name='Bob', avg(age)=5.0)]
>>> sorted(df.groupBy(df.name).avg().collect())
[Row(name='Alice', avg(age)=2.0), Row(name='Bob', avg(age)=5.0)]
>>> sorted(df.groupBy(['name', df.age]).count().collect())
[Row(name='Alice', age=2, count=1), Row(name='Bob', age=5, count=1)]

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrame.groupBy。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。