当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PySpark RDD collect方法用法及代码示例


PySpark RDD 的 collect(~) 方法返回一个包含 RDD 中所有项目的列表。

参数

该方法不接受任何参数。

返回值

Python 标准列表。

例子

将 PySpark RDD 转换为值列表

考虑以下 RDD:

rdd = sc.parallelize([4,2,5,7])
rdd



ParallelCollectionRDD[7] at readRDDFromInputStream at PythonRDD.scala:413

该 RDD 分为 8 个子集:

rdd.getNumPartitions()



8

根据您的配置,这 8 个分区可以驻留在多台计算机(工作节点)中。 collect(~)方法将RDD的所有数据发送到驱动节点,并将它们打包在单个列表中:

rdd = sc.parallelize([4,2,5,7])
rdd.collect()



[4, 2, 5, 7]
警告

来自工作节点的所有数据都将发送到驱动节点,因此请确保驱动节点有足够的内存 - 否则最终会出现 OutOfMemory 错误!

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark RDD | collect method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。