Python pyspark SparkContext.union用法及代码示例

本文简要介绍 pyspark.SparkContext.union 的用法。

用法: SparkContext.union(rdds)

构建 RDD 列表的并集。

这支持 unions() 的具有不同序列化格式的 RDD，尽管这会强制它们使用默认序列化程序重新序列化：

例子：

>>> path = os.path.join(tempdir, "union-text.txt")
>>> with open(path, "w") as testFile:
...    _ = testFile.write("Hello")
>>> textFile = sc.textFile(path)
>>> textFile.collect()
['Hello']
>>> parallelized = sc.parallelize(["World!"])
>>> sorted(sc.union([textFile, parallelized]).collect())
['Hello', 'World!']

相关用法

Python pyspark SparkContext.addFile用法及代码示例
Python pyspark SparkContext.runJob用法及代码示例
Python pyspark SparkContext.parallelize用法及代码示例
Python pyspark SparkContext.range用法及代码示例
Python pyspark SparkContext.setJobGroup用法及代码示例
Python pyspark SparkContext.pickleFile用法及代码示例
Python pyspark SparkContext.applicationId用法及代码示例
Python pyspark SparkContext.wholeTextFiles用法及代码示例
Python pyspark SparkContext.textFile用法及代码示例
Python pyspark SparkContext用法及代码示例
Python pyspark SparkConf用法及代码示例
Python pyspark SparkSession.createDataFrame用法及代码示例
Python pyspark SparkSession.table用法及代码示例
Python pyspark SparkSession用法及代码示例
Python pyspark SparkSession.builder.config用法及代码示例
Python pyspark SparkSession.getActiveSession用法及代码示例
Python pyspark SparkSession.range用法及代码示例
Python pyspark SparkSession.sql用法及代码示例
Python pyspark SparkSession.builder.getOrCreate用法及代码示例
Python pyspark SparseVector.parse用法及代码示例
Python pyspark SparseVector.dot用法及代码示例
Python pyspark SparseVector.squared_distance用法及代码示例
Python pyspark SparseVector.norm用法及代码示例
Python pyspark Series.asof用法及代码示例
Python pyspark Series.to_frame用法及代码示例

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.SparkContext.union。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。