Python pyspark SparkContext.union用法及代碼示例

本文簡要介紹 pyspark.SparkContext.union 的用法。

用法: SparkContext.union(rdds)

構建 RDD 列表的並集。

這支持 unions() 的具有不同序列化格式的 RDD，盡管這會強製它們使用默認序列化程序重新序列化：

例子：

>>> path = os.path.join(tempdir, "union-text.txt")
>>> with open(path, "w") as testFile:
...    _ = testFile.write("Hello")
>>> textFile = sc.textFile(path)
>>> textFile.collect()
['Hello']
>>> parallelized = sc.parallelize(["World!"])
>>> sorted(sc.union([textFile, parallelized]).collect())
['Hello', 'World!']

相關用法

Python pyspark SparkContext.addFile用法及代碼示例
Python pyspark SparkContext.runJob用法及代碼示例
Python pyspark SparkContext.parallelize用法及代碼示例
Python pyspark SparkContext.range用法及代碼示例
Python pyspark SparkContext.setJobGroup用法及代碼示例
Python pyspark SparkContext.pickleFile用法及代碼示例
Python pyspark SparkContext.applicationId用法及代碼示例
Python pyspark SparkContext.wholeTextFiles用法及代碼示例
Python pyspark SparkContext.textFile用法及代碼示例
Python pyspark SparkContext用法及代碼示例
Python pyspark SparkConf用法及代碼示例
Python pyspark SparkSession.createDataFrame用法及代碼示例
Python pyspark SparkSession.table用法及代碼示例
Python pyspark SparkSession用法及代碼示例
Python pyspark SparkSession.builder.config用法及代碼示例
Python pyspark SparkSession.getActiveSession用法及代碼示例
Python pyspark SparkSession.range用法及代碼示例
Python pyspark SparkSession.sql用法及代碼示例
Python pyspark SparkSession.builder.getOrCreate用法及代碼示例
Python pyspark SparseVector.parse用法及代碼示例
Python pyspark SparseVector.dot用法及代碼示例
Python pyspark SparseVector.squared_distance用法及代碼示例
Python pyspark SparseVector.norm用法及代碼示例
Python pyspark Series.asof用法及代碼示例
Python pyspark Series.to_frame用法及代碼示例

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.SparkContext.union。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。