當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python PySpark RDD zip方法用法及代碼示例


PySpark RDD 的 zip(~) 方法將兩個 RDD 的元素組合成一個元組 RDD。

參數

1. other | RDD

要結合的其他 RDD。

返回值

一個新的 PySpark RDD。

例子

將兩個 PySpark RDD 組合成一個元組 RDD

考慮以下兩個PySpark RDD:

x = sc.parallelize(range(0,6), 3)
y = sc.parallelize(range(10, 16), 3)

在這裏,我們使用 parallelize(~) 方法創建兩個RDD,每個RDD有3個分區。

我們可以使用 glom(~) 方法查看每個分區中的實際值:

x.glom().collect()



[[0, 1], [2, 3], [4, 5]]

我們看到 RDD x 確實有 3 個分區,每個分區中有 2 個元素。對於 RDD y 也可以這樣說:

y.glom().collect()



[[10, 11], [12, 13], [14, 15]]

我們可以使用 zip(~) 方法將兩個 RDD xy 組合成一個元組 RDD:

zipped_rdd = x.zip(y)
zipped_rdd.collect()



[(0, 10), (1, 11), (2, 12), (3, 13), (4, 14), (5, 15)]
警告

為了使用zip(~)方法,兩個RDD必須具有完全相同的分區數量以及每個分區中完全相同的元素數量。

相關用法


注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark RDD | zip method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。