Python pyspark GroupedData.pivot用法及代碼示例

本文簡要介紹 pyspark.sql.GroupedData.pivot 的用法。

用法: GroupedData.pivot(pivot_col, values=None)

透視當前 DataFrame 的列並執行指定的聚合。有兩種版本的數據透視函數：一種要求調用者指定要轉換的不同值的列表，另一種不需要。後者更簡潔但效率較低，因為 Spark 需要首先在內部計算不同值的列表。

版本 1.6.0 中的新函數。

參數：

pivot_col：str: 要透視的列的名稱。
values：列表，可選: 將轉換為輸出 DataFrame 中的列的值列表。

例子：

# 按課程計算每年的收入總和，每門課程作為單獨的列

>>> df4.groupBy("year").pivot("course", ["dotNET", "Java"]).sum("earnings").collect()
[Row(year=2012, dotNET=15000, Java=20000), Row(year=2013, dotNET=48000, Java=30000)]

# 或者不指定列值(效率較低)

>>> df4.groupBy("year").pivot("course").sum("earnings").collect()
[Row(year=2012, Java=20000, dotNET=15000), Row(year=2013, Java=30000, dotNET=48000)]
>>> df5.groupBy("sales.year").pivot("sales.course").sum("sales.earnings").collect()
[Row(year=2012, Java=20000, dotNET=15000), Row(year=2013, Java=30000, dotNET=48000)]

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.GroupedData.pivot。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。