Python pyspark SparkContext.textFile用法及代碼示例

本文簡要介紹 pyspark.SparkContext.textFile 的用法。

用法: SparkContext.textFile(name, minPartitions=None, use_unicode=True)

從 HDFS、本地文件係統(在所有節點上可用)或任何 Hadoop-supported 文件係統 URI 讀取文本文件，並將其作為字符串的 RDD 返回。文本文件必須編碼為 UTF-8。

如果 use_unicode 為 False，則字符串將保留為 str(編碼為 utf-8 )，這比 unicode 更快更小。 (在 Spark 1.2 中添加)

例子：

>>> path = os.path.join(tempdir, "sample-text.txt")
>>> with open(path, "w") as testFile:
...    _ = testFile.write("Hello world!")
>>> textFile = sc.textFile(path)
>>> textFile.collect()
['Hello world!']

相關用法

Python pyspark SparkContext.addFile用法及代碼示例
Python pyspark SparkContext.union用法及代碼示例
Python pyspark SparkContext.runJob用法及代碼示例
Python pyspark SparkContext.parallelize用法及代碼示例
Python pyspark SparkContext.range用法及代碼示例
Python pyspark SparkContext.setJobGroup用法及代碼示例
Python pyspark SparkContext.pickleFile用法及代碼示例
Python pyspark SparkContext.applicationId用法及代碼示例
Python pyspark SparkContext.wholeTextFiles用法及代碼示例
Python pyspark SparkContext用法及代碼示例
Python pyspark SparkConf用法及代碼示例
Python pyspark SparkSession.createDataFrame用法及代碼示例
Python pyspark SparkSession.table用法及代碼示例
Python pyspark SparkSession用法及代碼示例
Python pyspark SparkSession.builder.config用法及代碼示例
Python pyspark SparkSession.getActiveSession用法及代碼示例
Python pyspark SparkSession.range用法及代碼示例
Python pyspark SparkSession.sql用法及代碼示例
Python pyspark SparkSession.builder.getOrCreate用法及代碼示例
Python pyspark SparseVector.parse用法及代碼示例
Python pyspark SparseVector.dot用法及代碼示例
Python pyspark SparseVector.squared_distance用法及代碼示例
Python pyspark SparseVector.norm用法及代碼示例
Python pyspark Series.asof用法及代碼示例
Python pyspark Series.to_frame用法及代碼示例

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.SparkContext.textFile。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。