当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark RDD.fullOuterJoin用法及代码示例


本文简要介绍 pyspark.RDD.fullOuterJoin 的用法。

用法:

RDD.fullOuterJoin(other, numPartitions=None)

执行 selfother 的右外连接。

对于 self 中的每个元素 (k, v) ,生成的 RDD 将包含 other 中 w 的所有对 (k, (v, w)) 或对 (k, (v, None)) 如果other 中的任何元素都没有键 k。

同样,对于 other 中的每个元素 (k, w),生成的 RDD 将包含 self 中 v 的所有对 (k, (v, w)) 或对 (k, (None, w) ) 如果 self 中没有元素具有键 k。

Hash-partitions 将生成的 RDD 放入给定数量的分区中。

例子

>>> x = sc.parallelize([("a", 1), ("b", 4)])
>>> y = sc.parallelize([("a", 2), ("c", 8)])
>>> sorted(x.fullOuterJoin(y).collect())
[('a', (1, 2)), ('b', (4, None)), ('c', (None, 8))]

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.RDD.fullOuterJoin。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。