本文简要介绍
pyspark.pandas.DataFrame.aggregate
的用法。用法:
DataFrame.aggregate(func: Union[List[str], Dict[Union[Any, Tuple[Any, …]], List[str]]]) → pyspark.pandas.frame.DataFrame
在指定轴上使用一项或多项操作进行聚合。
- func:字典或列表
从列名(字符串)到聚合函数(字符串列表)的 dict 映射。如果给出列表,则对所有列执行聚合。
- DataFrame
参数:
返回:
注意:
agg
是aggregate
的别名。使用别名。例子:
>>> df = ps.DataFrame([[1, 2, 3], ... [4, 5, 6], ... [7, 8, 9], ... [np.nan, np.nan, np.nan]], ... columns=['A', 'B', 'C'])
>>> df A B C 0 1.0 2.0 3.0 1 4.0 5.0 6.0 2 7.0 8.0 9.0 3 NaN NaN NaN
在行上聚合这些函数。
>>> df.agg(['sum', 'min'])[['A', 'B', 'C']].sort_index() A B C min 1.0 2.0 3.0 sum 12.0 15.0 18.0
每列不同的聚合。
>>> df.agg({'A' : ['sum', 'min'], 'B' : ['min', 'max']})[['A', 'B']].sort_index() A B max NaN 8.0 min 1.0 2.0 sum 12.0 NaN
对于多索引列:
>>> df.columns = pd.MultiIndex.from_tuples([("X", "A"), ("X", "B"), ("Y", "C")]) >>> df.agg(['sum', 'min'])[[("X", "A"), ("X", "B"), ("Y", "C")]].sort_index() X Y A B C min 1.0 2.0 3.0 sum 12.0 15.0 18.0
>>> aggregated = df.agg({("X", "A") : ['sum', 'min'], ("X", "B") : ['min', 'max']}) >>> aggregated[[("X", "A"), ("X", "B")]].sort_index() X A B max NaN 8.0 min 1.0 2.0 sum 12.0 NaN
相关用法
- Python pyspark DataFrame.agg用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark DataFrame.any用法及代码示例
- Python pyspark DataFrame.alias用法及代码示例
- Python pyspark DataFrame.applymap用法及代码示例
- Python pyspark DataFrame.append用法及代码示例
- Python pyspark DataFrame.apply用法及代码示例
- Python pyspark DataFrame.at用法及代码示例
- Python pyspark DataFrame.add_prefix用法及代码示例
- Python pyspark DataFrame.all用法及代码示例
- Python pyspark DataFrame.add用法及代码示例
- Python pyspark DataFrame.axes用法及代码示例
- Python pyspark DataFrame.astype用法及代码示例
- Python pyspark DataFrame.abs用法及代码示例
- Python pyspark DataFrame.assign用法及代码示例
- Python pyspark DataFrame.at_time用法及代码示例
- Python pyspark DataFrame.add_suffix用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark DataFrame.quantile用法及代码示例
- Python pyspark DataFrame.cumsum用法及代码示例
- Python pyspark DataFrame.iloc用法及代码示例
- Python pyspark DataFrame.dropDuplicates用法及代码示例
- Python pyspark DataFrame.printSchema用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.aggregate。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。