当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark SparkContext.textFile用法及代码示例


本文简要介绍 pyspark.SparkContext.textFile 的用法。

用法:

SparkContext.textFile(name, minPartitions=None, use_unicode=True)

从 HDFS、本地文件系统(在所有节点上可用)或任何 Hadoop-supported 文件系统 URI 读取文本文件,并将其作为字符串的 RDD 返回。文本文件必须编码为 UTF-8。

如果 use_unicode 为 False,则字符串将保留为 str(编码为 utf-8 ),这比 unicode 更快更小。 (在 Spark 1.2 中添加)

例子

>>> path = os.path.join(tempdir, "sample-text.txt")
>>> with open(path, "w") as testFile:
...    _ = testFile.write("Hello world!")
>>> textFile = sc.textFile(path)
>>> textFile.collect()
['Hello world!']

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.SparkContext.textFile。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。