PySpark RDD 的 collect(~)
方法返回一個包含 RDD 中所有項目的列表。
參數
該方法不接受任何參數。
返回值
Python 標準列表。
例子
將 PySpark RDD 轉換為值列表
考慮以下 RDD:
rdd = sc.parallelize([4,2,5,7])
rdd
ParallelCollectionRDD[7] at readRDDFromInputStream at PythonRDD.scala:413
該 RDD 分為 8 個子集:
rdd.getNumPartitions()
8
根據您的配置,這 8 個分區可以駐留在多台計算機(工作節點)中。 collect(~)
方法將RDD的所有數據發送到驅動節點,並將它們打包在單個列表中:
rdd = sc.parallelize([4,2,5,7])
rdd.collect()
[4, 2, 5, 7]
警告
來自工作節點的所有數據都將發送到驅動節點,因此請確保驅動節點有足夠的內存 - 否則最終會出現 OutOfMemory
錯誤!
相關用法
- Python PySpark RDD collectAsMap方法用法及代碼示例
- Python PySpark RDD countByKey方法用法及代碼示例
- Python PySpark RDD coalesce方法用法及代碼示例
- Python PySpark RDD count方法用法及代碼示例
- Python PySpark RDD zip方法用法及代碼示例
- Python PySpark RDD repartition方法用法及代碼示例
- Python PySpark RDD partitionBy方法用法及代碼示例
- Python PySpark RDD reduceByKey方法用法及代碼示例
- Python PySpark RDD zipWithIndex方法用法及代碼示例
- Python PySpark RDD filter方法用法及代碼示例
- Python PySpark RDD first方法用法及代碼示例
- Python PySpark RDD keys方法用法及代碼示例
- Python PySpark RDD glom方法用法及代碼示例
- Python PySpark RDD getNumPartitions方法用法及代碼示例
- Python PySpark RDD map方法用法及代碼示例
- Python Django Response.json用法及代碼示例
- Python Django Repeat用法及代碼示例
- Python Django RandomUUID用法及代碼示例
- Python Django RelatedManager.set用法及代碼示例
- Python RLock acquire()用法及代碼示例
- Python Django RelatedManager.remove用法及代碼示例
- Python Random.Choices()用法及代碼示例
- Python Django RequestContext用法及代碼示例
- Python Django Reverse用法及代碼示例
- Python NumPy Random Generator uniform方法用法及代碼示例
注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark RDD | collect method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。