Python pyspark RDD.zipWithIndex用法及代码示例

本文简要介绍 pyspark.RDD.zipWithIndex 的用法。

用法: RDD.zipWithIndex()

用它的元素索引压缩这个 RDD。

排序首先基于分区索引，然后是每个分区内项目的排序。所以第一个分区中的第一项获得索引 0，最后一个分区中的最后一项获得最大索引。

此方法需要在此 RDD 包含多个分区时触发 spark 作业。

>>> sc.parallelize(["a", "b", "c", "d"], 3).zipWithIndex().collect()
[('a', 0), ('b', 1), ('c', 2), ('d', 3)]

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.RDD.zipWithIndex。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。