PySpark RDD 的 zip(~)
方法将两个 RDD 的元素组合成一个元组 RDD。
参数
1. other
| RDD
要结合的其他 RDD。
返回值
一个新的 PySpark RDD。
例子
将两个 PySpark RDD 组合成一个元组 RDD
考虑以下两个PySpark RDD:
x = sc.parallelize(range(0,6), 3)
y = sc.parallelize(range(10, 16), 3)
在这里,我们使用 parallelize(~)
方法创建两个RDD,每个RDD有3个分区。
我们可以使用 glom(~)
方法查看每个分区中的实际值:
x.glom().collect()
[[0, 1], [2, 3], [4, 5]]
我们看到 RDD x
确实有 3 个分区,每个分区中有 2 个元素。对于 RDD y
也可以这样说:
y.glom().collect()
[[10, 11], [12, 13], [14, 15]]
我们可以使用 zip(~)
方法将两个 RDD x
和 y
组合成一个元组 RDD:
zipped_rdd = x.zip(y)
zipped_rdd.collect()
[(0, 10), (1, 11), (2, 12), (3, 13), (4, 14), (5, 15)]
警告
为了使用zip(~)
方法,两个RDD必须具有完全相同的分区数量以及每个分区中完全相同的元素数量。
相关用法
- Python PySpark RDD zipWithIndex方法用法及代码示例
- Python PySpark RDD collect方法用法及代码示例
- Python PySpark RDD repartition方法用法及代码示例
- Python PySpark RDD countByKey方法用法及代码示例
- Python PySpark RDD partitionBy方法用法及代码示例
- Python PySpark RDD reduceByKey方法用法及代码示例
- Python PySpark RDD coalesce方法用法及代码示例
- Python PySpark RDD count方法用法及代码示例
- Python PySpark RDD filter方法用法及代码示例
- Python PySpark RDD collectAsMap方法用法及代码示例
- Python PySpark RDD first方法用法及代码示例
- Python PySpark RDD keys方法用法及代码示例
- Python PySpark RDD glom方法用法及代码示例
- Python PySpark RDD getNumPartitions方法用法及代码示例
- Python PySpark RDD map方法用法及代码示例
- Python Django Response.json用法及代码示例
- Python Django Repeat用法及代码示例
- Python Django RandomUUID用法及代码示例
- Python Django RelatedManager.set用法及代码示例
- Python RLock acquire()用法及代码示例
- Python Django RelatedManager.remove用法及代码示例
- Python Random.Choices()用法及代码示例
- Python Django RequestContext用法及代码示例
- Python Django Reverse用法及代码示例
- Python NumPy Random Generator uniform方法用法及代码示例
注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark RDD | zip method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。