當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark DataFrame.groupBy用法及代碼示例


本文簡要介紹 pyspark.sql.DataFrame.groupBy 的用法。

用法:

DataFrame.groupBy(*cols)

使用指定的列對 DataFrame 進行分組,因此我們可以對它們運行聚合。有關所有可用的聚合函數,請參見 GroupedData

groupby()groupBy() 的別名。

版本 1.3.0 中的新函數。

參數

cols列表、str 或 Column

要分組的列。每個元素應該是一個列名(字符串)或一個表達式( Column )。

例子

>>> df.groupBy().avg().collect()
[Row(avg(age)=3.5)]
>>> sorted(df.groupBy('name').agg({'age': 'mean'}).collect())
[Row(name='Alice', avg(age)=2.0), Row(name='Bob', avg(age)=5.0)]
>>> sorted(df.groupBy(df.name).avg().collect())
[Row(name='Alice', avg(age)=2.0), Row(name='Bob', avg(age)=5.0)]
>>> sorted(df.groupBy(['name', df.age]).count().collect())
[Row(name='Alice', age=2, count=1), Row(name='Bob', age=5, count=1)]

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrame.groupBy。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。