Python pyspark GroupBy.filter用法及代碼示例

本文簡要介紹 pyspark.pandas.groupby.GroupBy.filter 的用法。

用法: GroupBy.filter(func: Callable[[FrameLike], FrameLike]) → FrameLike

返回 DataFrame 的副本，排除不滿足 func 指定的布爾標準的組中的元素。

參數：

f：函數: 應用於每個子幀的函數。應該返回 True 或 False。
dropna：丟棄未通過過濾器的組。默認為真；: 如果為 False，則評估 False 的組將填充 NaN。

filtered：DataFrame 或係列

注意：

每個子幀都被賦予屬性‘name’，以防您需要知道您正在處理哪個組。

例子：

>>> df = ps.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
...                           'foo', 'bar'],
...                    'B' : [1, 2, 3, 4, 5, 6],
...                    'C' : [2.0, 5., 8., 1., 2., 9.]}, columns=['A', 'B', 'C'])
>>> grouped = df.groupby('A')
>>> grouped.filter(lambda x: x['B'].mean() > 3.)
     A  B    C
1  bar  2  5.0
3  bar  4  1.0
5  bar  6  9.0

>>> df.B.groupby(df.A).filter(lambda x: x.mean() > 3.)
1    2
3    4
5    6
Name: B, dtype: int64

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.groupby.GroupBy.filter。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：

注意：

例子：