PySpark RDD 的 zip(~)
方法將兩個 RDD 的元素組合成一個元組 RDD。
參數
1. other
| RDD
要結合的其他 RDD。
返回值
一個新的 PySpark RDD。
例子
將兩個 PySpark RDD 組合成一個元組 RDD
考慮以下兩個PySpark RDD:
x = sc.parallelize(range(0,6), 3)
y = sc.parallelize(range(10, 16), 3)
在這裏,我們使用 parallelize(~)
方法創建兩個RDD,每個RDD有3個分區。
我們可以使用 glom(~)
方法查看每個分區中的實際值:
x.glom().collect()
[[0, 1], [2, 3], [4, 5]]
我們看到 RDD x
確實有 3 個分區,每個分區中有 2 個元素。對於 RDD y
也可以這樣說:
y.glom().collect()
[[10, 11], [12, 13], [14, 15]]
我們可以使用 zip(~)
方法將兩個 RDD x
和 y
組合成一個元組 RDD:
zipped_rdd = x.zip(y)
zipped_rdd.collect()
[(0, 10), (1, 11), (2, 12), (3, 13), (4, 14), (5, 15)]
警告
為了使用zip(~)
方法,兩個RDD必須具有完全相同的分區數量以及每個分區中完全相同的元素數量。
相關用法
- Python PySpark RDD zipWithIndex方法用法及代碼示例
- Python PySpark RDD collect方法用法及代碼示例
- Python PySpark RDD repartition方法用法及代碼示例
- Python PySpark RDD countByKey方法用法及代碼示例
- Python PySpark RDD partitionBy方法用法及代碼示例
- Python PySpark RDD reduceByKey方法用法及代碼示例
- Python PySpark RDD coalesce方法用法及代碼示例
- Python PySpark RDD count方法用法及代碼示例
- Python PySpark RDD filter方法用法及代碼示例
- Python PySpark RDD collectAsMap方法用法及代碼示例
- Python PySpark RDD first方法用法及代碼示例
- Python PySpark RDD keys方法用法及代碼示例
- Python PySpark RDD glom方法用法及代碼示例
- Python PySpark RDD getNumPartitions方法用法及代碼示例
- Python PySpark RDD map方法用法及代碼示例
- Python Django Response.json用法及代碼示例
- Python Django Repeat用法及代碼示例
- Python Django RandomUUID用法及代碼示例
- Python Django RelatedManager.set用法及代碼示例
- Python RLock acquire()用法及代碼示例
- Python Django RelatedManager.remove用法及代碼示例
- Python Random.Choices()用法及代碼示例
- Python Django RequestContext用法及代碼示例
- Python Django Reverse用法及代碼示例
- Python NumPy Random Generator uniform方法用法及代碼示例
注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark RDD | zip method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。