当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PySpark RDD glom方法用法及代码示例


PySpark RDD 的glom() 方法返回保存每个分区内容的 RDD。

参数

该方法不接受任何参数。

返回值

PySpark RDD (pyspark.rdd.PipelinedRDD)。

例子

考虑以下 RDD:

# Create a RDD with 3 partitions
rdd = sc.parallelize(["A","B","C","A"], numSlices=3)
rdd.collect()



['A', 'B', 'C', 'A']

获取PySpark RDD中每个分区的值

要查看这些分区的内容:

rdd.glom().collect()



[['A'], ['B'], ['C', 'A']]

这里:

  • 分区 1 保存'A'

  • 分区 2 保存'B'

  • 分区 3 包含 'C''A'

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark RDD | glom method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。