本文简要介绍
pyspark.pandas.DataFrame.pivot_table
的用法。用法:
DataFrame.pivot_table(values: Union[Any, Tuple[Any, …], List[Union[Any, Tuple[Any, …]]], None] = None, index: Optional[List[Union[Any, Tuple[Any, …]]]] = None, columns: Union[Any, Tuple[Any, …], None] = None, aggfunc: Union[str, Dict[Union[Any, Tuple[Any, …]], str]] = 'mean', fill_value: Optional[Any] = None) → pyspark.pandas.frame.DataFrame
创建电子表格样式的数据透视表作为 DataFrame。数据透视表中的级别将存储在结果 DataFrame 的索引和列上的 MultiIndex 对象(分层索引)中。
- values:要聚合的列。
它们应该是少于三个的列表或字符串。
- index:列(字符串)或列列表
如果传递一个数组,它必须与数据的长度相同。该列表应包含字符串。
- columns:柱子
透视操作中使用的列。只支持一列,它应该是一个字符串。
- aggfunc:函数(字符串),dict,默认均值
如果 dict 被传递,键是要聚合的列,值是函数或函数列表。
- fill_value:标量,默认无
替换缺失值的值。
- table:DataFrame
参数:
返回:
例子:
>>> df = ps.DataFrame({"A": ["foo", "foo", "foo", "foo", "foo", ... "bar", "bar", "bar", "bar"], ... "B": ["one", "one", "one", "two", "two", ... "one", "one", "two", "two"], ... "C": ["small", "large", "large", "small", ... "small", "large", "small", "small", ... "large"], ... "D": [1, 2, 2, 3, 3, 4, 5, 6, 7], ... "E": [2, 4, 5, 5, 6, 6, 8, 9, 9]}, ... columns=['A', 'B', 'C', 'D', 'E']) >>> df A B C D E 0 foo one small 1 2 1 foo one large 2 4 2 foo one large 2 5 3 foo two small 3 5 4 foo two small 3 6 5 bar one large 4 6 6 bar one small 5 8 7 bar two small 6 9 8 bar two large 7 9
第一个示例通过求和来聚合值。
>>> table = df.pivot_table(values='D', index=['A', 'B'], ... columns='C', aggfunc='sum') >>> table.sort_index() C large small A B bar one 4.0 5 two 7.0 6 foo one 4.0 1 two NaN 6
我们还可以使用
fill_value
参数填充缺失值。>>> table = df.pivot_table(values='D', index=['A', 'B'], ... columns='C', aggfunc='sum', fill_value=0) >>> table.sort_index() C large small A B bar one 4 5 two 7 6 foo one 4 1 two 0 6
我们还可以为任何给定的值列计算多种类型的聚合。
>>> table = df.pivot_table(values=['D'], index =['C'], ... columns="A", aggfunc={'D': 'mean'}) >>> table.sort_index() D A bar foo C large 5.5 2.000000 small 5.5 2.333333
下一个示例聚合多个值。
>>> table = df.pivot_table(index=['C'], columns="A", values=['D', 'E'], ... aggfunc={'D': 'mean', 'E': 'sum'}) >>> table.sort_index() D E A bar foo bar foo C large 5.5 2.000000 15 9 small 5.5 2.333333 17 13
相关用法
- Python pyspark DataFrame.pivot用法及代码示例
- Python pyspark DataFrame.pipe用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.printSchema用法及代码示例
- Python pyspark DataFrame.pandas_on_spark.apply_batch用法及代码示例
- Python pyspark DataFrame.plot.area用法及代码示例
- Python pyspark DataFrame.plot.line用法及代码示例
- Python pyspark DataFrame.plot.hist用法及代码示例
- Python pyspark DataFrame.pandas_on_spark.transform_batch用法及代码示例
- Python pyspark DataFrame.plot.barh用法及代码示例
- Python pyspark DataFrame.prod用法及代码示例
- Python pyspark DataFrame.plot.pie用法及代码示例
- Python pyspark DataFrame.plot.density用法及代码示例
- Python pyspark DataFrame.plot.scatter用法及代码示例
- Python pyspark DataFrame.pop用法及代码示例
- Python pyspark DataFrame.pow用法及代码示例
- Python pyspark DataFrame.pad用法及代码示例
- Python pyspark DataFrame.pct_change用法及代码示例
- Python pyspark DataFrame.product用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark DataFrame.quantile用法及代码示例
- Python pyspark DataFrame.cumsum用法及代码示例
- Python pyspark DataFrame.iloc用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.pivot_table。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。