当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PySpark RDD filter方法用法及代码示例


PySpark RDD 的filter(~) 方法根据给定函数提取数据的子集。

参数

1. f | function

一个函数,它接受 RDD 数据项作为输入并返回一个布尔值,其中:

  • True表示保留

  • False表示忽略。

返回值

PySpark RDD (pyspark.rdd.PipelinedRDD)。

例子

考虑以下 RDD:

rdd = sc.parallelize([4,2,5,7])
rdd



ParallelCollectionRDD[7] at readRDDFromInputStream at PythonRDD.scala:413

过滤 RDD 的元素

要获得一个新的 RDD,其值都严格大于 3:

new_rdd = rdd.filter(lambda x: x > 3)
new_rdd.collect()



[4, 5, 7]

这里, collect() 方法用于将RDD的内容检索为单个列表。

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark RDD | filter method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。