当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark GroupBy.filter用法及代码示例


本文简要介绍 pyspark.pandas.groupby.GroupBy.filter 的用法。

用法:

GroupBy.filter(func: Callable[[FrameLike], FrameLike]) → FrameLike

返回 DataFrame 的副本,排除不满足 func 指定的布尔标准的组中的元素。

参数

f函数

应用于每个子帧的函数。应该返回 True 或 False。

dropna丢弃未通过过滤器的组。默认为真;

如果为 False,则评估 False 的组将填充 NaN。

返回

filteredDataFrame 或系列

注意

每个子帧都被赋予属性‘name’,以防您需要知道您正在处理哪个组。

例子

>>> df = ps.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
...                           'foo', 'bar'],
...                    'B' : [1, 2, 3, 4, 5, 6],
...                    'C' : [2.0, 5., 8., 1., 2., 9.]}, columns=['A', 'B', 'C'])
>>> grouped = df.groupby('A')
>>> grouped.filter(lambda x: x['B'].mean() > 3.)
     A  B    C
1  bar  2  5.0
3  bar  4  1.0
5  bar  6  9.0
>>> df.B.groupby(df.A).filter(lambda x: x.mean() > 3.)
1    2
3    4
5    6
Name: B, dtype: int64

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.groupby.GroupBy.filter。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。