PySpark RDD 的 zipWithIndex(~)
方法返回元組 RDD,其中元組的第一個元素是值,第二個元素是索引。第一個分區的第一個值的索引為 0。
參數
該方法不接受任何參數。
返回值
一個新的 PySpark RDD。
例子
考慮以下具有 2 個分區的 PySpark RDD:
rdd = sc.parallelize(['A','B','C'], 2)
rdd.collect()
['A', 'B', 'C']
我們可以使用 glom()
方法查看每個分區的內容:
rdd.glom().collect()
[['A'], ['B', 'C']]
我們看到我們確實有 2 個分區,第一個分區包含值 'A'
,第二個分區包含值 'B'
和 'C'
。
我們可以使用 zipWithIndex(~)
創建一個包含位置索引信息的新元組 RDD:
new_rdd = rdd.zipWithIndex()
new_rdd.collect()
[('A', 0), ('B', 1), ('C', 2)]
我們看到索引位置是根據分區位置分配的 - 第一個分區的第一個元素將被分配第 0 個索引。
相關用法
- Python PySpark RDD zip方法用法及代碼示例
- Python PySpark RDD collect方法用法及代碼示例
- Python PySpark RDD repartition方法用法及代碼示例
- Python PySpark RDD countByKey方法用法及代碼示例
- Python PySpark RDD partitionBy方法用法及代碼示例
- Python PySpark RDD reduceByKey方法用法及代碼示例
- Python PySpark RDD coalesce方法用法及代碼示例
- Python PySpark RDD count方法用法及代碼示例
- Python PySpark RDD filter方法用法及代碼示例
- Python PySpark RDD collectAsMap方法用法及代碼示例
- Python PySpark RDD first方法用法及代碼示例
- Python PySpark RDD keys方法用法及代碼示例
- Python PySpark RDD glom方法用法及代碼示例
- Python PySpark RDD getNumPartitions方法用法及代碼示例
- Python PySpark RDD map方法用法及代碼示例
- Python Django Response.json用法及代碼示例
- Python Django Repeat用法及代碼示例
- Python Django RandomUUID用法及代碼示例
- Python Django RelatedManager.set用法及代碼示例
- Python RLock acquire()用法及代碼示例
- Python Django RelatedManager.remove用法及代碼示例
- Python Random.Choices()用法及代碼示例
- Python Django RequestContext用法及代碼示例
- Python Django Reverse用法及代碼示例
- Python NumPy Random Generator uniform方法用法及代碼示例
注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark RDD | zipWithIndex method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。