当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PySpark RDD zip方法用法及代码示例


PySpark RDD 的 zip(~) 方法将两个 RDD 的元素组合成一个元组 RDD。

参数

1. other | RDD

要结合的其他 RDD。

返回值

一个新的 PySpark RDD。

例子

将两个 PySpark RDD 组合成一个元组 RDD

考虑以下两个PySpark RDD:

x = sc.parallelize(range(0,6), 3)
y = sc.parallelize(range(10, 16), 3)

在这里,我们使用 parallelize(~) 方法创建两个RDD,每个RDD有3个分区。

我们可以使用 glom(~) 方法查看每个分区中的实际值:

x.glom().collect()



[[0, 1], [2, 3], [4, 5]]

我们看到 RDD x 确实有 3 个分区,每个分区中有 2 个元素。对于 RDD y 也可以这样说:

y.glom().collect()



[[10, 11], [12, 13], [14, 15]]

我们可以使用 zip(~) 方法将两个 RDD xy 组合成一个元组 RDD:

zipped_rdd = x.zip(y)
zipped_rdd.collect()



[(0, 10), (1, 11), (2, 12), (3, 13), (4, 14), (5, 15)]
警告

为了使用zip(~)方法,两个RDD必须具有完全相同的分区数量以及每个分区中完全相同的元素数量。

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark RDD | zip method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。