本文简要介绍
pyspark.sql.GroupedData.pivot
的用法。用法:
GroupedData.pivot(pivot_col, values=None)
透视当前
DataFrame
的列并执行指定的聚合。有两种版本的数据透视函数:一种要求调用者指定要转换的不同值的列表,另一种不需要。后者更简洁但效率较低,因为 Spark 需要首先在内部计算不同值的列表。版本 1.6.0 中的新函数。
- pivot_col:str
要透视的列的名称。
- values:列表,可选
将转换为输出 DataFrame 中的列的值列表。
参数:
例子:
# 按课程计算每年的收入总和,每门课程作为单独的列
>>> df4.groupBy("year").pivot("course", ["dotNET", "Java"]).sum("earnings").collect() [Row(year=2012, dotNET=15000, Java=20000), Row(year=2013, dotNET=48000, Java=30000)]
# 或者不指定列值(效率较低)
>>> df4.groupBy("year").pivot("course").sum("earnings").collect() [Row(year=2012, Java=20000, dotNET=15000), Row(year=2013, Java=30000, dotNET=48000)] >>> df5.groupBy("sales.year").pivot("sales.course").sum("sales.earnings").collect() [Row(year=2012, Java=20000, dotNET=15000), Row(year=2013, Java=30000, dotNET=48000)]
相关用法
- Python pyspark GroupedData.applyInPandas用法及代码示例
- Python pyspark GroupedData.mean用法及代码示例
- Python pyspark GroupedData.agg用法及代码示例
- Python pyspark GroupedData.apply用法及代码示例
- Python pyspark GroupedData.max用法及代码示例
- Python pyspark GroupedData.count用法及代码示例
- Python pyspark GroupedData.min用法及代码示例
- Python pyspark GroupedData.avg用法及代码示例
- Python pyspark GroupedData.sum用法及代码示例
- Python pyspark GroupBy.mean用法及代码示例
- Python pyspark GroupBy.head用法及代码示例
- Python pyspark GroupBy.cumsum用法及代码示例
- Python pyspark GroupBy.rank用法及代码示例
- Python pyspark GroupBy.bfill用法及代码示例
- Python pyspark GroupBy.cummin用法及代码示例
- Python pyspark GroupBy.cummax用法及代码示例
- Python pyspark GroupBy.fillna用法及代码示例
- Python pyspark GroupBy.apply用法及代码示例
- Python pyspark GroupBy.diff用法及代码示例
- Python pyspark GroupBy.filter用法及代码示例
- Python pyspark GroupBy.transform用法及代码示例
- Python pyspark GroupBy.cumcount用法及代码示例
- Python pyspark GroupBy.idxmax用法及代码示例
- Python pyspark GroupBy.shift用法及代码示例
- Python pyspark GroupBy.idxmin用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.GroupedData.pivot。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。