Python pyspark DataFrame.filter用法及代码示例

本文简要介绍 pyspark.pandas.DataFrame.filter 的用法。

用法: DataFrame.filter(items: Optional[Sequence[Any]] = None, like: Optional[str] = None, regex: Optional[str] = None, axis: Union[int, str, None] = None) → pyspark.pandas.frame.DataFrame

根据指定索引中的标签对 DataFrame 的行或列进行子集。

请注意，此例程不会根据其内容过滤 DataFrame 。过滤器应用于索引的标签。

参数：

items：类似列表的: 保留项目中的轴标签。
like：string: 保留“like in label == True”轴的标签。
regex：字符串(正则表达式): 保留 re.search(regex, label) == True 的轴的标签。
axis：int 或字符串轴名称: 要过滤的轴。默认情况下，这是信息轴，‘index’ 用于系列，‘columns’ 用于 DataFrame。

与输入对象相同的类型

注意：

items 、 like 和 regex 参数强制互斥。

axis 默认为使用 [] 进行索引时使用的信息轴。

例子：

>>> df = ps.DataFrame(np.array(([1, 2, 3], [4, 5, 6])),
...                   index=['mouse', 'rabbit'],
...                   columns=['one', 'two', 'three'])

>>> # select columns by name
>>> df.filter(items=['one', 'three'])
        one  three
mouse     1      3
rabbit    4      6

>>> # select columns by regular expression
>>> df.filter(regex='e$', axis=1)
        one  three
mouse     1      3
rabbit    4      6

>>> # select rows containing 'bbi'
>>> df.filter(like='bbi', axis=0)
        one  two  three
rabbit    4    5      6

对于一个系列，

>>> # select rows by name
>>> df.one.filter(items=['rabbit'])
rabbit    4
Name: one, dtype: int64

>>> # select rows by regular expression
>>> df.one.filter(regex='e$')
mouse    1
Name: one, dtype: int64

>>> # select rows containing 'bbi'
>>> df.one.filter(like='bbi')
rabbit    4
Name: one, dtype: int64

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.filter。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

注意：

例子：