本文简要介绍
pyspark.RDD.saveAsTextFile
的用法。用法:
RDD.saveAsTextFile(path, compressionCodecClass=None)
将此 RDD 保存为文本文件,使用元素的字符串表示。
- path:str
文本文件的路径
- compressionCodecClass:str,可选
压缩编解码器类的全限定类名,即“org.apache.hadoop.io.compress.GzipCodec”(默认为无)
参数:
例子:
>>> from tempfile import NamedTemporaryFile >>> tempFile = NamedTemporaryFile(delete=True) >>> tempFile.close() >>> sc.parallelize(range(10)).saveAsTextFile(tempFile.name) >>> from fileinput import input >>> from glob import glob >>> ''.join(sorted(input(glob(tempFile.name + "/part-0000*")))) '0\n1\n2\n3\n4\n5\n6\n7\n8\n9\n'
保存到文本文件时允许出现空行。
>>> from tempfile import NamedTemporaryFile >>> tempFile2 = NamedTemporaryFile(delete=True) >>> tempFile2.close() >>> sc.parallelize(['', 'foo', '', 'bar', '']).saveAsTextFile(tempFile2.name) >>> ''.join(sorted(input(glob(tempFile2.name + "/part-0000*")))) '\n\n\nbar\nfoo\n'
使用压缩编解码器类
>>> from tempfile import NamedTemporaryFile >>> tempFile3 = NamedTemporaryFile(delete=True) >>> tempFile3.close() >>> codec = "org.apache.hadoop.io.compress.GzipCodec" >>> sc.parallelize(['foo', 'bar']).saveAsTextFile(tempFile3.name, codec) >>> from fileinput import input, hook_compressed >>> result = sorted(input(glob(tempFile3.name + "/part*.gz"), openhook=hook_compressed)) >>> b''.join(result).decode('utf-8') 'bar\nfoo\n'
相关用法
- Python pyspark RDD.saveAsPickleFile用法及代码示例
- Python pyspark RDD.sampleByKey用法及代码示例
- Python pyspark RDD.sampleVariance用法及代码示例
- Python pyspark RDD.sample用法及代码示例
- Python pyspark RDD.sampleStdev用法及代码示例
- Python pyspark RDD.sumApprox用法及代码示例
- Python pyspark RDD.subtract用法及代码示例
- Python pyspark RDD.sortByKey用法及代码示例
- Python pyspark RDD.stdev用法及代码示例
- Python pyspark RDD.setName用法及代码示例
- Python pyspark RDD.subtractByKey用法及代码示例
- Python pyspark RDD.sortBy用法及代码示例
- Python pyspark RDD.sum用法及代码示例
- Python pyspark RDD.keyBy用法及代码示例
- Python pyspark RDD.lookup用法及代码示例
- Python pyspark RDD.zipWithIndex用法及代码示例
- Python pyspark RDD.coalesce用法及代码示例
- Python pyspark RDD.count用法及代码示例
- Python pyspark RDD.groupWith用法及代码示例
- Python pyspark RDD.distinct用法及代码示例
- Python pyspark RDD.treeAggregate用法及代码示例
- Python pyspark RDD.mapPartitionsWithIndex用法及代码示例
- Python pyspark RDD.foreachPartition用法及代码示例
- Python pyspark RDD.zipWithUniqueId用法及代码示例
- Python pyspark RDD.takeOrdered用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.RDD.saveAsTextFile。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。