當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python PySpark RDD filter方法用法及代碼示例


PySpark RDD 的filter(~) 方法根據給定函數提取數據的子集。

參數

1. f | function

一個函數,它接受 RDD 數據項作為輸入並返回一個布爾值,其中:

  • True表示保留

  • False表示忽略。

返回值

PySpark RDD (pyspark.rdd.PipelinedRDD)。

例子

考慮以下 RDD:

rdd = sc.parallelize([4,2,5,7])
rdd



ParallelCollectionRDD[7] at readRDDFromInputStream at PythonRDD.scala:413

過濾 RDD 的元素

要獲得一個新的 RDD,其值都嚴格大於 3:

new_rdd = rdd.filter(lambda x: x > 3)
new_rdd.collect()



[4, 5, 7]

這裏, collect() 方法用於將RDD的內容檢索為單個列表。

相關用法


注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark RDD | filter method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。