PySpark RDD 的 collect(~)
方法返回一个包含 RDD 中所有项目的列表。
参数
该方法不接受任何参数。
返回值
Python 标准列表。
例子
将 PySpark RDD 转换为值列表
考虑以下 RDD:
rdd = sc.parallelize([4,2,5,7])
rdd
ParallelCollectionRDD[7] at readRDDFromInputStream at PythonRDD.scala:413
该 RDD 分为 8 个子集:
rdd.getNumPartitions()
8
根据您的配置,这 8 个分区可以驻留在多台计算机(工作节点)中。 collect(~)
方法将RDD的所有数据发送到驱动节点,并将它们打包在单个列表中:
rdd = sc.parallelize([4,2,5,7])
rdd.collect()
[4, 2, 5, 7]
警告
来自工作节点的所有数据都将发送到驱动节点,因此请确保驱动节点有足够的内存 - 否则最终会出现 OutOfMemory
错误!
相关用法
- Python PySpark RDD collectAsMap方法用法及代码示例
- Python PySpark RDD countByKey方法用法及代码示例
- Python PySpark RDD coalesce方法用法及代码示例
- Python PySpark RDD count方法用法及代码示例
- Python PySpark RDD zip方法用法及代码示例
- Python PySpark RDD repartition方法用法及代码示例
- Python PySpark RDD partitionBy方法用法及代码示例
- Python PySpark RDD reduceByKey方法用法及代码示例
- Python PySpark RDD zipWithIndex方法用法及代码示例
- Python PySpark RDD filter方法用法及代码示例
- Python PySpark RDD first方法用法及代码示例
- Python PySpark RDD keys方法用法及代码示例
- Python PySpark RDD glom方法用法及代码示例
- Python PySpark RDD getNumPartitions方法用法及代码示例
- Python PySpark RDD map方法用法及代码示例
- Python Django Response.json用法及代码示例
- Python Django Repeat用法及代码示例
- Python Django RandomUUID用法及代码示例
- Python Django RelatedManager.set用法及代码示例
- Python RLock acquire()用法及代码示例
- Python Django RelatedManager.remove用法及代码示例
- Python Random.Choices()用法及代码示例
- Python Django RequestContext用法及代码示例
- Python Django Reverse用法及代码示例
- Python NumPy Random Generator uniform方法用法及代码示例
注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark RDD | collect method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。