当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataFrame.filter用法及代码示例


本文简要介绍 pyspark.pandas.DataFrame.filter 的用法。

用法:

DataFrame.filter(items: Optional[Sequence[Any]] = None, like: Optional[str] = None, regex: Optional[str] = None, axis: Union[int, str, None] = None) → pyspark.pandas.frame.DataFrame

根据指定索引中的标签对 DataFrame 的行或列进行子集。

请注意,此例程不会根据其内容过滤 DataFrame 。过滤器应用于索引的标签。

参数

items类似列表的

保留项目中的轴标签。

likestring

保留“like in label == True”轴的标签。

regex字符串(正则表达式)

保留 re.search(regex, label) == True 的轴的标签。

axisint 或字符串轴名称

要过滤的轴。默认情况下,这是信息轴,‘index’ 用于系列,‘columns’ 用于 DataFrame。

返回

与输入对象相同的类型

注意

itemslikeregex 参数强制互斥。

axis 默认为使用 [] 进行索引时使用的信息轴。

例子

>>> df = ps.DataFrame(np.array(([1, 2, 3], [4, 5, 6])),
...                   index=['mouse', 'rabbit'],
...                   columns=['one', 'two', 'three'])
>>> # select columns by name
>>> df.filter(items=['one', 'three'])
        one  three
mouse     1      3
rabbit    4      6
>>> # select columns by regular expression
>>> df.filter(regex='e$', axis=1)
        one  three
mouse     1      3
rabbit    4      6
>>> # select rows containing 'bbi'
>>> df.filter(like='bbi', axis=0)
        one  two  three
rabbit    4    5      6

对于一个系列,

>>> # select rows by name
>>> df.one.filter(items=['rabbit'])
rabbit    4
Name: one, dtype: int64
>>> # select rows by regular expression
>>> df.one.filter(regex='e$')
mouse    1
Name: one, dtype: int64
>>> # select rows containing 'bbi'
>>> df.one.filter(like='bbi')
rabbit    4
Name: one, dtype: int64

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.filter。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。