当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark SparkContext.union用法及代码示例


本文简要介绍 pyspark.SparkContext.union 的用法。

用法:

SparkContext.union(rdds)

构建 RDD 列表的并集。

这支持 unions() 的具有不同序列化格式的 RDD,尽管这会强制它们使用默认序列化程序重新序列化:

例子

>>> path = os.path.join(tempdir, "union-text.txt")
>>> with open(path, "w") as testFile:
...    _ = testFile.write("Hello")
>>> textFile = sc.textFile(path)
>>> textFile.collect()
['Hello']
>>> parallelized = sc.parallelize(["World!"])
>>> sorted(sc.union([textFile, parallelized]).collect())
['Hello', 'World!']

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.SparkContext.union。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。