PySpark RDD 的filter(~)
方法根據給定函數提取數據的子集。
參數
1. f
| function
一個函數,它接受 RDD 數據項作為輸入並返回一個布爾值,其中:
-
True
表示保留 -
False
表示忽略。
返回值
PySpark RDD (pyspark.rdd.PipelinedRDD
)。
例子
考慮以下 RDD:
rdd = sc.parallelize([4,2,5,7])
rdd
ParallelCollectionRDD[7] at readRDDFromInputStream at PythonRDD.scala:413
過濾 RDD 的元素
要獲得一個新的 RDD,其值都嚴格大於 3:
new_rdd = rdd.filter(lambda x: x > 3)
new_rdd.collect()
[4, 5, 7]
這裏, collect()
方法用於將RDD的內容檢索為單個列表。
相關用法
- Python PySpark RDD first方法用法及代碼示例
- Python PySpark RDD zip方法用法及代碼示例
- Python PySpark RDD collect方法用法及代碼示例
- Python PySpark RDD repartition方法用法及代碼示例
- Python PySpark RDD countByKey方法用法及代碼示例
- Python PySpark RDD partitionBy方法用法及代碼示例
- Python PySpark RDD reduceByKey方法用法及代碼示例
- Python PySpark RDD coalesce方法用法及代碼示例
- Python PySpark RDD zipWithIndex方法用法及代碼示例
- Python PySpark RDD count方法用法及代碼示例
- Python PySpark RDD collectAsMap方法用法及代碼示例
- Python PySpark RDD keys方法用法及代碼示例
- Python PySpark RDD glom方法用法及代碼示例
- Python PySpark RDD getNumPartitions方法用法及代碼示例
- Python PySpark RDD map方法用法及代碼示例
- Python Django Response.json用法及代碼示例
- Python Django Repeat用法及代碼示例
- Python Django RandomUUID用法及代碼示例
- Python Django RelatedManager.set用法及代碼示例
- Python RLock acquire()用法及代碼示例
- Python Django RelatedManager.remove用法及代碼示例
- Python Random.Choices()用法及代碼示例
- Python Django RequestContext用法及代碼示例
- Python Django Reverse用法及代碼示例
- Python NumPy Random Generator uniform方法用法及代碼示例
注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark RDD | filter method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。