Python pyspark SparkContext.addFile用法及代碼示例

本文簡要介紹 pyspark.SparkContext.addFile 的用法。

用法: SparkContext.addFile(path, recursive=False)

在每個節點上添加要與此 Spark 作業一起下載的文件。傳遞的 path 可以是本地文件、HDFS 中的文件(或其他 Hadoop-supported 文件係統)，也可以是 HTTP、HTTPS 或 FTP URI。

要在 Spark 作業中訪問該文件，請使用帶有文件名的 SparkFiles.get() 來查找其下載位置。

如果遞歸選項設置為 True，則可以給出一個目錄。當前目錄僅支持Hadoop-supported 文件係統。

注意：

一條路徑隻能添加一次。隨後添加的相同路徑將被忽略。

例子：

>>> from pyspark import SparkFiles
>>> path = os.path.join(tempdir, "test.txt")
>>> with open(path, "w") as testFile:
...    _ = testFile.write("100")
>>> sc.addFile(path)
>>> def func(iterator):
...    with open(SparkFiles.get("test.txt")) as testFile:
...        fileVal = int(testFile.readline())
...        return [x * fileVal for x in iterator]
>>> sc.parallelize([1, 2, 3, 4]).mapPartitions(func).collect()
[100, 200, 300, 400]

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.SparkContext.addFile。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。