Python pyspark RDD.fullOuterJoin用法及代碼示例

本文簡要介紹 pyspark.RDD.fullOuterJoin 的用法。

用法: RDD.fullOuterJoin(other, numPartitions=None)

執行 self 和 other 的右外連接。

對於 self 中的每個元素 (k, v) ，生成的 RDD 將包含 other 中 w 的所有對 (k, (v, w)) 或對 (k, (v, None)) 如果other 中的任何元素都沒有鍵 k。

同樣，對於 other 中的每個元素 (k, w)，生成的 RDD 將包含 self 中 v 的所有對 (k, (v, w)) 或對 (k, (None, w) ) 如果 self 中沒有元素具有鍵 k。

Hash-partitions 將生成的 RDD 放入給定數量的分區中。

例子：

>>> x = sc.parallelize([("a", 1), ("b", 4)])
>>> y = sc.parallelize([("a", 2), ("c", 8)])
>>> sorted(x.fullOuterJoin(y).collect())
[('a', (1, 2)), ('b', (4, None)), ('c', (None, 8))]

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.RDD.fullOuterJoin。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。