Python pyspark GroupedData.pivot用法及代码示例

本文简要介绍 pyspark.sql.GroupedData.pivot 的用法。

用法: GroupedData.pivot(pivot_col, values=None)

透视当前 DataFrame 的列并执行指定的聚合。有两种版本的数据透视函数：一种要求调用者指定要转换的不同值的列表，另一种不需要。后者更简洁但效率较低，因为 Spark 需要首先在内部计算不同值的列表。

版本 1.6.0 中的新函数。

参数：

pivot_col：str: 要透视的列的名称。
values：列表，可选: 将转换为输出 DataFrame 中的列的值列表。

例子：

# 按课程计算每年的收入总和，每门课程作为单独的列

>>> df4.groupBy("year").pivot("course", ["dotNET", "Java"]).sum("earnings").collect()
[Row(year=2012, dotNET=15000, Java=20000), Row(year=2013, dotNET=48000, Java=30000)]

# 或者不指定列值(效率较低)

>>> df4.groupBy("year").pivot("course").sum("earnings").collect()
[Row(year=2012, Java=20000, dotNET=15000), Row(year=2013, Java=30000, dotNET=48000)]
>>> df5.groupBy("sales.year").pivot("sales.course").sum("sales.earnings").collect()
[Row(year=2012, Java=20000, dotNET=15000), Row(year=2013, Java=30000, dotNET=48000)]

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.GroupedData.pivot。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。