當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python pyspark GroupBy.filter用法及代碼示例

本文簡要介紹 pyspark.pandas.groupby.GroupBy.filter 的用法。

用法:

GroupBy.filter(func: Callable[[FrameLike], FrameLike]) → FrameLike

返回 DataFrame 的副本,排除不滿足 func 指定的布爾標準的組中的元素。

參數

f函數

應用於每個子幀的函數。應該返回 True 或 False。

dropna丟棄未通過過濾器的組。默認為真;

如果為 False,則評估 False 的組將填充 NaN。

返回

filteredDataFrame 或係列

注意

每個子幀都被賦予屬性‘name’,以防您需要知道您正在處理哪個組。

例子

>>> df = ps.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
...                           'foo', 'bar'],
...                    'B' : [1, 2, 3, 4, 5, 6],
...                    'C' : [2.0, 5., 8., 1., 2., 9.]}, columns=['A', 'B', 'C'])
>>> grouped = df.groupby('A')
>>> grouped.filter(lambda x: x['B'].mean() > 3.)
     A  B    C
1  bar  2  5.0
3  bar  4  1.0
5  bar  6  9.0
>>> df.B.groupby(df.A).filter(lambda x: x.mean() > 3.)
1    2
3    4
5    6
Name: B, dtype: int64

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.groupby.GroupBy.filter。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。