當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python pyspark GroupedData.pivot用法及代碼示例

本文簡要介紹 pyspark.sql.GroupedData.pivot 的用法。

用法:

GroupedData.pivot(pivot_col, values=None)

透視當前 DataFrame 的列並執行指定的聚合。有兩種版本的數據透視函數:一種要求調用者指定要轉換的不同值的列表,另一種不需要。後者更簡潔但效率較低,因為 Spark 需要首先在內部計算不同值的列表。

版本 1.6.0 中的新函數。

參數

pivot_colstr

要透視的列的名稱。

values列表,可選

將轉換為輸出 DataFrame 中的列的值列表。

例子

# 按課程計算每年的收入總和,每門課程作為單獨的列

>>> df4.groupBy("year").pivot("course", ["dotNET", "Java"]).sum("earnings").collect()
[Row(year=2012, dotNET=15000, Java=20000), Row(year=2013, dotNET=48000, Java=30000)]

# 或者不指定列值(效率較低)

>>> df4.groupBy("year").pivot("course").sum("earnings").collect()
[Row(year=2012, Java=20000, dotNET=15000), Row(year=2013, Java=30000, dotNET=48000)]
>>> df5.groupBy("sales.year").pivot("sales.course").sum("sales.earnings").collect()
[Row(year=2012, Java=20000, dotNET=15000), Row(year=2013, Java=30000, dotNET=48000)]

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.GroupedData.pivot。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。