Python pyspark SparkContext.textFile用法及代码示例

本文简要介绍 pyspark.SparkContext.textFile 的用法。

用法: SparkContext.textFile(name, minPartitions=None, use_unicode=True)

从 HDFS、本地文件系统(在所有节点上可用)或任何 Hadoop-supported 文件系统 URI 读取文本文件，并将其作为字符串的 RDD 返回。文本文件必须编码为 UTF-8。

如果 use_unicode 为 False，则字符串将保留为 str(编码为 utf-8 )，这比 unicode 更快更小。 (在 Spark 1.2 中添加)

例子：

>>> path = os.path.join(tempdir, "sample-text.txt")
>>> with open(path, "w") as testFile:
...    _ = testFile.write("Hello world!")
>>> textFile = sc.textFile(path)
>>> textFile.collect()
['Hello world!']

相关用法

Python pyspark SparkContext.addFile用法及代码示例
Python pyspark SparkContext.union用法及代码示例
Python pyspark SparkContext.runJob用法及代码示例
Python pyspark SparkContext.parallelize用法及代码示例
Python pyspark SparkContext.range用法及代码示例
Python pyspark SparkContext.setJobGroup用法及代码示例
Python pyspark SparkContext.pickleFile用法及代码示例
Python pyspark SparkContext.applicationId用法及代码示例
Python pyspark SparkContext.wholeTextFiles用法及代码示例
Python pyspark SparkContext用法及代码示例
Python pyspark SparkConf用法及代码示例
Python pyspark SparkSession.createDataFrame用法及代码示例
Python pyspark SparkSession.table用法及代码示例
Python pyspark SparkSession用法及代码示例
Python pyspark SparkSession.builder.config用法及代码示例
Python pyspark SparkSession.getActiveSession用法及代码示例
Python pyspark SparkSession.range用法及代码示例
Python pyspark SparkSession.sql用法及代码示例
Python pyspark SparkSession.builder.getOrCreate用法及代码示例
Python pyspark SparseVector.parse用法及代码示例
Python pyspark SparseVector.dot用法及代码示例
Python pyspark SparseVector.squared_distance用法及代码示例
Python pyspark SparseVector.norm用法及代码示例
Python pyspark Series.asof用法及代码示例
Python pyspark Series.to_frame用法及代码示例

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.SparkContext.textFile。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。