Python PySpark RDD zipWithIndex方法用法及代碼示例

PySpark RDD 的 zipWithIndex(~) 方法返回元組 RDD，其中元組的第一個元素是值，第二個元素是索引。第一個分區的第一個值的索引為 0。

該方法不接受任何參數。

一個新的 PySpark RDD。

考慮以下具有 2 個分區的 PySpark RDD：

rdd = sc.parallelize(['A','B','C'], 2)
rdd.collect()



['A', 'B', 'C']

我們可以使用 glom() 方法查看每個分區的內容：

rdd.glom().collect()



[['A'], ['B', 'C']]

我們看到我們確實有 2 個分區，第一個分區包含值 'A' ，第二個分區包含值 'B' 和 'C' 。

我們可以使用 zipWithIndex(~) 創建一個包含位置索引信息的新元組 RDD：

new_rdd = rdd.zipWithIndex()
new_rdd.collect()



[('A', 0), ('B', 1), ('C', 2)]

我們看到索引位置是根據分區位置分配的 - 第一個分區的第一個元素將被分配第 0 個索引。

相關用法

注：本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark RDD | zipWithIndex method。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。