当前位置: 首页>>编程示例 >>用法及示例精选 >>正文


Python dask.bytes.read_bytes用法及代码示例

用法:

dask.bytes.read_bytes(urlpath, delimiter=None, not_zero=False, blocksize='128 MiB', sample='10 kiB', compression=None, include_path=False, **kwargs)

给定一个或多个路径,返回从这些路径读取的延迟对象。

路径可以是像 '2015-01-01.csv' 这样的文件名,也可以是像 '2015-*-*.csv' 这样的全局字符串。

如果安装了这些库,则路径前面可能有协议,例如 s3://hdfs://

如果给定,这将通过分隔符干净地打破数据,以便块边界直接在分隔符之后开始并在分隔符处结束。

参数

urlpath字符串或列表

绝对或相对文件路径。使用 s3:// 之类的协议作为前缀,以从替代文件系统中读取。要从多个文件中读取,您可以传递一个 globstring 或路径列表,但需要注意的是它们都必须具有相同的协议。

delimiter字节

一个可选的分隔符,如b'\n',用于分割字节块。

not_zerobool

强制查找start-of-file 分隔符,丢弃标头。

blocksize整数,字符串

块大小(以字节为单位),默认为“128 MiB”

compression字符串或无

‘gzip’ or ‘xz’ 之类的字符串。必须支持有效的随机访问。

sample整数、字符串或布尔值

是否返回标头样本。值可以是 False for “no sample requested” 或整数或字符串值,例如 2**20"1 MiB"

include_pathbool

是否包含表示特定文件的字节的路径。默认为假。

**kwargsdict

对特定存储连接有意义的额外选项,例如主机、端口、用户名、密码等

返回

sample字节

示例标题

blocksdask.Delayed 列表列表

每个列表对应一个文件,每个延迟对象从该文件计算一个字节块。

paths字符串列表,仅在 include_path 为 True 时包含

与块长度相同的列表,其中每个项目是对应块中表示的文件的路径。

例子

>>> sample, blocks = read_bytes('2015-*-*.csv', delimiter=b'\n')  
>>> sample, blocks = read_bytes('s3://bucket/2015-*-*.csv', delimiter=b'\n')  
>>> sample, paths, blocks = read_bytes('2015-*-*.csv', include_path=True)

相关用法


注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.bytes.read_bytes。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。