Python PySpark RDD zip方法用法及代码示例

PySpark RDD 的 zip(~) 方法将两个 RDD 的元素组合成一个元组 RDD。

1. other | RDD

要结合的其他 RDD。

一个新的 PySpark RDD。

考虑以下两个PySpark RDD：

x = sc.parallelize(range(0,6), 3)
y = sc.parallelize(range(10, 16), 3)

在这里，我们使用 parallelize(~) 方法创建两个RDD，每个RDD有3个分区。

我们可以使用 glom(~) 方法查看每个分区中的实际值：

x.glom().collect()



[[0, 1], [2, 3], [4, 5]]

我们看到 RDD x 确实有 3 个分区，每个分区中有 2 个元素。对于 RDD y 也可以这样说：

y.glom().collect()



[[10, 11], [12, 13], [14, 15]]

我们可以使用 zip(~) 方法将两个 RDD x 和 y 组合成一个元组 RDD：

zipped_rdd = x.zip(y)
zipped_rdd.collect()



[(0, 10), (1, 11), (2, 12), (3, 13), (4, 14), (5, 15)]

为了使用zip(~)方法，两个RDD必须具有完全相同的分区数量以及每个分区中完全相同的元素数量。

相关用法

注：本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark RDD | zip method。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。