当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PySpark RDD zipWithIndex方法用法及代码示例


PySpark RDD 的 zipWithIndex(~) 方法返回元组 RDD,其中元组的第一个元素是值,第二个元素是索引。第一个分区的第一个值的索引为 0。

参数

该方法不接受任何参数。

返回值

一个新的 PySpark RDD。

例子

考虑以下具有 2 个分区的 PySpark RDD:

rdd = sc.parallelize(['A','B','C'], 2)
rdd.collect()



['A', 'B', 'C']

我们可以使用 glom() 方法查看每个分区的内容:

rdd.glom().collect()



[['A'], ['B', 'C']]

我们看到我们确实有 2 个分区,第一个分区包含值 'A' ,第二个分区包含值 'B''C'

我们可以使用 zipWithIndex(~) 创建一个包含位置索引信息的新元组 RDD:

new_rdd = rdd.zipWithIndex()
new_rdd.collect()



[('A', 0), ('B', 1), ('C', 2)]

我们看到索引位置是根据分区位置分配的 - 第一个分区的第一个元素将被分配第 0 个索引。

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark RDD | zipWithIndex method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。