当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark GroupedData.pivot用法及代码示例


本文简要介绍 pyspark.sql.GroupedData.pivot 的用法。

用法:

GroupedData.pivot(pivot_col, values=None)

透视当前 DataFrame 的列并执行指定的聚合。有两种版本的数据透视函数:一种要求调用者指定要转换的不同值的列表,另一种不需要。后者更简洁但效率较低,因为 Spark 需要首先在内部计算不同值的列表。

版本 1.6.0 中的新函数。

参数

pivot_colstr

要透视的列的名称。

values列表,可选

将转换为输出 DataFrame 中的列的值列表。

例子

# 按课程计算每年的收入总和,每门课程作为单独的列

>>> df4.groupBy("year").pivot("course", ["dotNET", "Java"]).sum("earnings").collect()
[Row(year=2012, dotNET=15000, Java=20000), Row(year=2013, dotNET=48000, Java=30000)]

# 或者不指定列值(效率较低)

>>> df4.groupBy("year").pivot("course").sum("earnings").collect()
[Row(year=2012, Java=20000, dotNET=15000), Row(year=2013, Java=30000, dotNET=48000)]
>>> df5.groupBy("sales.year").pivot("sales.course").sum("sales.earnings").collect()
[Row(year=2012, Java=20000, dotNET=15000), Row(year=2013, Java=30000, dotNET=48000)]

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.GroupedData.pivot。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。