Python dask.bytes.read_bytes用法及代码示例

用法:
dask.bytes.read_bytes(urlpath, delimiter=None, not_zero=False, blocksize='128 MiB', sample='10 kiB', compression=None, include_path=False, **kwargs)

给定一个或多个路径，返回从这些路径读取的延迟对象。

路径可以是像 '2015-01-01.csv' 这样的文件名，也可以是像 '2015-*-*.csv' 这样的全局字符串。

如果安装了这些库，则路径前面可能有协议，例如 s3:// 或 hdfs://。

如果给定，这将通过分隔符干净地打破数据，以便块边界直接在分隔符之后开始并在分隔符处结束。

参数：

urlpath：字符串或列表: 绝对或相对文件路径。使用 s3:// 之类的协议作为前缀，以从替代文件系统中读取。要从多个文件中读取，您可以传递一个 globstring 或路径列表，但需要注意的是它们都必须具有相同的协议。
delimiter：字节: 一个可选的分隔符，如b'\n'，用于分割字节块。
not_zero：bool: 强制查找start-of-file 分隔符，丢弃标头。
blocksize：整数，字符串: 块大小(以字节为单位)，默认为“128 MiB”
compression：字符串或无: ‘gzip’ or ‘xz’ 之类的字符串。必须支持有效的随机访问。
sample：整数、字符串或布尔值: 是否返回标头样本。值可以是 False for “no sample requested” 或整数或字符串值，例如 2**20 或 "1 MiB"
include_path：bool: 是否包含表示特定文件的字节的路径。默认为假。
**kwargs：dict: 对特定存储连接有意义的额外选项，例如主机、端口、用户名、密码等

sample：字节: 示例标题
blocks：dask.Delayed 列表列表: 每个列表对应一个文件，每个延迟对象从该文件计算一个字节块。
paths：字符串列表，仅在 include_path 为 True 时包含: 与块长度相同的列表，其中每个项目是对应块中表示的文件的路径。

例子：

>>> sample, blocks = read_bytes('2015-*-*.csv', delimiter=b'\n')  
>>> sample, blocks = read_bytes('s3://bucket/2015-*-*.csv', delimiter=b'\n')  
>>> sample, paths, blocks = read_bytes('2015-*-*.csv', include_path=True)

相关用法

注：本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.bytes.read_bytes。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

例子：