Python PySpark RDD collect方法用法及代碼示例

PySpark RDD 的 collect(~) 方法返回一個包含 RDD 中所有項目的列表。

該方法不接受任何參數。

Python 標準列表。

考慮以下 RDD：

rdd = sc.parallelize([4,2,5,7])
rdd



ParallelCollectionRDD[7] at readRDDFromInputStream at PythonRDD.scala:413

該 RDD 分為 8 個子集：

rdd.getNumPartitions()



8

根據您的配置，這 8 個分區可以駐留在多台計算機(工作節點)中。 collect(~)方法將RDD的所有數據發送到驅動節點，並將它們打包在單個列表中：

rdd = sc.parallelize([4,2,5,7])
rdd.collect()



[4, 2, 5, 7]

來自工作節點的所有數據都將發送到驅動節點，因此請確保驅動節點有足夠的內存 - 否則最終會出現 OutOfMemory 錯誤！

相關用法

注：本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark RDD | collect method。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。