本文簡要介紹
pyspark.sql.GroupedData.pivot
的用法。用法:
GroupedData.pivot(pivot_col, values=None)
透視當前
DataFrame
的列並執行指定的聚合。有兩種版本的數據透視函數:一種要求調用者指定要轉換的不同值的列表,另一種不需要。後者更簡潔但效率較低,因為 Spark 需要首先在內部計算不同值的列表。版本 1.6.0 中的新函數。
- pivot_col:str
要透視的列的名稱。
- values:列表,可選
將轉換為輸出 DataFrame 中的列的值列表。
參數:
例子:
# 按課程計算每年的收入總和,每門課程作為單獨的列
>>> df4.groupBy("year").pivot("course", ["dotNET", "Java"]).sum("earnings").collect() [Row(year=2012, dotNET=15000, Java=20000), Row(year=2013, dotNET=48000, Java=30000)]
# 或者不指定列值(效率較低)
>>> df4.groupBy("year").pivot("course").sum("earnings").collect() [Row(year=2012, Java=20000, dotNET=15000), Row(year=2013, Java=30000, dotNET=48000)] >>> df5.groupBy("sales.year").pivot("sales.course").sum("sales.earnings").collect() [Row(year=2012, Java=20000, dotNET=15000), Row(year=2013, Java=30000, dotNET=48000)]
相關用法
- Python pyspark GroupedData.applyInPandas用法及代碼示例
- Python pyspark GroupedData.mean用法及代碼示例
- Python pyspark GroupedData.agg用法及代碼示例
- Python pyspark GroupedData.apply用法及代碼示例
- Python pyspark GroupedData.max用法及代碼示例
- Python pyspark GroupedData.count用法及代碼示例
- Python pyspark GroupedData.min用法及代碼示例
- Python pyspark GroupedData.avg用法及代碼示例
- Python pyspark GroupedData.sum用法及代碼示例
- Python pyspark GroupBy.mean用法及代碼示例
- Python pyspark GroupBy.head用法及代碼示例
- Python pyspark GroupBy.cumsum用法及代碼示例
- Python pyspark GroupBy.rank用法及代碼示例
- Python pyspark GroupBy.bfill用法及代碼示例
- Python pyspark GroupBy.cummin用法及代碼示例
- Python pyspark GroupBy.cummax用法及代碼示例
- Python pyspark GroupBy.fillna用法及代碼示例
- Python pyspark GroupBy.apply用法及代碼示例
- Python pyspark GroupBy.diff用法及代碼示例
- Python pyspark GroupBy.filter用法及代碼示例
- Python pyspark GroupBy.transform用法及代碼示例
- Python pyspark GroupBy.cumcount用法及代碼示例
- Python pyspark GroupBy.idxmax用法及代碼示例
- Python pyspark GroupBy.shift用法及代碼示例
- Python pyspark GroupBy.idxmin用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.GroupedData.pivot。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。