本文簡要介紹
pyspark.pandas.DataFrame.aggregate
的用法。用法:
DataFrame.aggregate(func: Union[List[str], Dict[Union[Any, Tuple[Any, …]], List[str]]]) → pyspark.pandas.frame.DataFrame
在指定軸上使用一項或多項操作進行聚合。
- func:字典或列表
從列名(字符串)到聚合函數(字符串列表)的 dict 映射。如果給出列表,則對所有列執行聚合。
- DataFrame
參數:
返回:
注意:
agg
是aggregate
的別名。使用別名。例子:
>>> df = ps.DataFrame([[1, 2, 3], ... [4, 5, 6], ... [7, 8, 9], ... [np.nan, np.nan, np.nan]], ... columns=['A', 'B', 'C'])
>>> df A B C 0 1.0 2.0 3.0 1 4.0 5.0 6.0 2 7.0 8.0 9.0 3 NaN NaN NaN
在行上聚合這些函數。
>>> df.agg(['sum', 'min'])[['A', 'B', 'C']].sort_index() A B C min 1.0 2.0 3.0 sum 12.0 15.0 18.0
每列不同的聚合。
>>> df.agg({'A' : ['sum', 'min'], 'B' : ['min', 'max']})[['A', 'B']].sort_index() A B max NaN 8.0 min 1.0 2.0 sum 12.0 NaN
對於多索引列:
>>> df.columns = pd.MultiIndex.from_tuples([("X", "A"), ("X", "B"), ("Y", "C")]) >>> df.agg(['sum', 'min'])[[("X", "A"), ("X", "B"), ("Y", "C")]].sort_index() X Y A B C min 1.0 2.0 3.0 sum 12.0 15.0 18.0
>>> aggregated = df.agg({("X", "A") : ['sum', 'min'], ("X", "B") : ['min', 'max']}) >>> aggregated[[("X", "A"), ("X", "B")]].sort_index() X A B max NaN 8.0 min 1.0 2.0 sum 12.0 NaN
相關用法
- Python pyspark DataFrame.agg用法及代碼示例
- Python pyspark DataFrame.align用法及代碼示例
- Python pyspark DataFrame.any用法及代碼示例
- Python pyspark DataFrame.alias用法及代碼示例
- Python pyspark DataFrame.applymap用法及代碼示例
- Python pyspark DataFrame.append用法及代碼示例
- Python pyspark DataFrame.apply用法及代碼示例
- Python pyspark DataFrame.at用法及代碼示例
- Python pyspark DataFrame.add_prefix用法及代碼示例
- Python pyspark DataFrame.all用法及代碼示例
- Python pyspark DataFrame.add用法及代碼示例
- Python pyspark DataFrame.axes用法及代碼示例
- Python pyspark DataFrame.astype用法及代碼示例
- Python pyspark DataFrame.abs用法及代碼示例
- Python pyspark DataFrame.assign用法及代碼示例
- Python pyspark DataFrame.at_time用法及代碼示例
- Python pyspark DataFrame.add_suffix用法及代碼示例
- Python pyspark DataFrame.to_latex用法及代碼示例
- Python pyspark DataFrame.plot.bar用法及代碼示例
- Python pyspark DataFrame.to_delta用法及代碼示例
- Python pyspark DataFrame.quantile用法及代碼示例
- Python pyspark DataFrame.cumsum用法及代碼示例
- Python pyspark DataFrame.iloc用法及代碼示例
- Python pyspark DataFrame.dropDuplicates用法及代碼示例
- Python pyspark DataFrame.printSchema用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.DataFrame.aggregate。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。