當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark SparkContext.addFile用法及代碼示例


本文簡要介紹 pyspark.SparkContext.addFile 的用法。

用法:

SparkContext.addFile(path, recursive=False)

在每個節點上添加要與此 Spark 作業一起下載的文件。傳遞的 path 可以是本地文件、HDFS 中的文件(或其他 Hadoop-supported 文件係統),也可以是 HTTP、HTTPS 或 FTP URI。

要在 Spark 作業中訪問該文件,請使用帶有文件名的 SparkFiles.get() 來查找其下載位置。

如果遞歸選項設置為 True,則可以給出一個目錄。當前目錄僅支持Hadoop-supported 文件係統。

注意

一條路徑隻能添加一次。隨後添加的相同路徑將被忽略。

例子

>>> from pyspark import SparkFiles
>>> path = os.path.join(tempdir, "test.txt")
>>> with open(path, "w") as testFile:
...    _ = testFile.write("100")
>>> sc.addFile(path)
>>> def func(iterator):
...    with open(SparkFiles.get("test.txt")) as testFile:
...        fileVal = int(testFile.readline())
...        return [x * fileVal for x in iterator]
>>> sc.parallelize([1, 2, 3, 4]).mapPartitions(func).collect()
[100, 200, 300, 400]

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.SparkContext.addFile。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。