当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataFrame.groupBy用法及代码示例


本文简要介绍 pyspark.sql.DataFrame.groupBy 的用法。

用法:

DataFrame.groupBy(*cols)

使用指定的列对 DataFrame 进行分组,因此我们可以对它们运行聚合。有关所有可用的聚合函数,请参见 GroupedData

groupby()groupBy() 的别名。

版本 1.3.0 中的新函数。

参数

cols列表、str 或 Column

要分组的列。每个元素应该是一个列名(字符串)或一个表达式( Column )。

例子

>>> df.groupBy().avg().collect()
[Row(avg(age)=3.5)]
>>> sorted(df.groupBy('name').agg({'age': 'mean'}).collect())
[Row(name='Alice', avg(age)=2.0), Row(name='Bob', avg(age)=5.0)]
>>> sorted(df.groupBy(df.name).avg().collect())
[Row(name='Alice', avg(age)=2.0), Row(name='Bob', avg(age)=5.0)]
>>> sorted(df.groupBy(['name', df.age]).count().collect())
[Row(name='Alice', age=2, count=1), Row(name='Bob', age=5, count=1)]

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrame.groupBy。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。