用法:
dask.bag.read_text(urlpath, blocksize=None, compression='infer', encoding='utf-8', errors='strict', linedelimiter=None, collection=True, storage_options=None, files_per_partition=None, include_path=False)
从文本文件中读取行
- urlpath:字符串或列表
绝对或相对文件路径。使用
s3://
之类的协议作为前缀,以从替代文件系统中读取。要从多个文件中读取,您可以传递一个 globstring 或路径列表,但需要注意的是它们都必须具有相同的协议。- blocksize: None, int, or str:
分割较大文件的大小(以字节为单位)。默认为流。可以是
None
(用于流式传输)、整数字节或类似“128MiB” 的字符串- compression: string:
压缩格式如‘gzip’ or ‘xz’。默认为‘infer’
- encoding: string:
- errors: string:
- linedelimiter: string or None:
- collection: bool, optional:
如果为真,则返回 dask.bag,如果为假,则返回延迟值列表
- storage_options: dict:
对特定存储连接有意义的额外选项,例如主机、端口、用户名、密码等
- files_per_partition: None or int:
如果设置,则将输入文件分组到请求大小的分区中,而不是每个文件一个分区。与块大小互斥。
- include_path: bool:
是否在包中包含路径。如果为 true,则元素是 (line, path) 的元组。默认为假。
- dask.bag.Bag 或列表
dask.bag.Bag 如果collection 为True,否则为延迟列表列表。
参数:
返回:
例子:
>>> b = read_text('myfiles.1.txt') >>> b = read_text('myfiles.*.txt') >>> b = read_text('myfiles.*.txt.gz') >>> b = read_text('s3://bucket/myfiles.*.txt') >>> b = read_text('s3://key:secret@bucket/myfiles.*.txt') >>> b = read_text('hdfs://namenode.example.com/myfiles.*.txt')
通过提供要加载到每个分区中的未压缩字节数来并行化大文件。
>>> b = read_text('largefile.txt', blocksize='10MB')
通过设置include_path=True获取包的文件路径
>>> b = read_text('myfiles.*.txt', include_path=True) >>> b.take(1) (('first line of the first file', '/home/dask/myfiles.0.txt'),)
相关用法
- Python dask.bag.range用法及代码示例
- Python dask.bag.random.sample用法及代码示例
- Python dask.bag.random.choices用法及代码示例
- Python dask.bag.Bag.frequencies用法及代码示例
- Python dask.bag.Bag.to_textfiles用法及代码示例
- Python dask.bag.Bag.repartition用法及代码示例
- Python dask.bag.Bag.join用法及代码示例
- Python dask.bag.Bag.accumulate用法及代码示例
- Python dask.bag.Bag.fold用法及代码示例
- Python dask.bag.Bag.map_partitions用法及代码示例
- Python dask.bag.Bag.groupby用法及代码示例
- Python dask.bag.map用法及代码示例
- Python dask.bag.Bag.reduction用法及代码示例
- Python dask.bag.Bag.foldby用法及代码示例
- Python dask.bag.Bag.flatten用法及代码示例
- Python dask.bag.from_sequence用法及代码示例
- Python dask.bag.Bag.remove用法及代码示例
- Python dask.bag.Bag.random_sample用法及代码示例
- Python dask.bag.Item.visualize用法及代码示例
- Python dask.bag.Bag.distinct用法及代码示例
注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.bag.read_text。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。