当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark RDD.rightOuterJoin用法及代码示例


本文简要介绍 pyspark.RDD.rightOuterJoin 的用法。

用法:

RDD.rightOuterJoin(other, numPartitions=None)

执行 selfother 的右外连接。

对于 other 中的每个元素 (k, w),生成的 RDD 将包含其中 v 的所有对 (k, (v, w)),如果没有元素,则包含对 (k, (None, w))在self 中有键 k。

Hash-partitions 将生成的 RDD 放入给定数量的分区中。

例子

>>> x = sc.parallelize([("a", 1), ("b", 4)])
>>> y = sc.parallelize([("a", 2)])
>>> sorted(y.rightOuterJoin(x).collect())
[('a', (2, 1)), ('b', (None, 4))]

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.RDD.rightOuterJoin。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。