当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark RDD.zipWithIndex用法及代码示例


本文简要介绍 pyspark.RDD.zipWithIndex 的用法。

用法:

RDD.zipWithIndex()

用它的元素索引压缩这个 RDD。

排序首先基于分区索引,然后是每个分区内项目的排序。所以第一个分区中的第一项获得索引 0,最后一个分区中的最后一项获得最大索引。

此方法需要在此 RDD 包含多个分区时触发 spark 作业。

例子

>>> sc.parallelize(["a", "b", "c", "d"], 3).zipWithIndex().collect()
[('a', 0), ('b', 1), ('c', 2), ('d', 3)]

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.RDD.zipWithIndex。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。