Python pyspark RDD.fullOuterJoin用法及代码示例

本文简要介绍 pyspark.RDD.fullOuterJoin 的用法。

用法: RDD.fullOuterJoin(other, numPartitions=None)

执行 self 和 other 的右外连接。

对于 self 中的每个元素 (k, v) ，生成的 RDD 将包含 other 中 w 的所有对 (k, (v, w)) 或对 (k, (v, None)) 如果other 中的任何元素都没有键 k。

同样，对于 other 中的每个元素 (k, w)，生成的 RDD 将包含 self 中 v 的所有对 (k, (v, w)) 或对 (k, (None, w) ) 如果 self 中没有元素具有键 k。

Hash-partitions 将生成的 RDD 放入给定数量的分区中。

例子：

>>> x = sc.parallelize([("a", 1), ("b", 4)])
>>> y = sc.parallelize([("a", 2), ("c", 8)])
>>> sorted(x.fullOuterJoin(y).collect())
[('a', (1, 2)), ('b', (4, None)), ('c', (None, 8))]

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.RDD.fullOuterJoin。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。