用法:
dask.bytes.read_bytes(urlpath, delimiter=None, not_zero=False, blocksize='128 MiB', sample='10 kiB', compression=None, include_path=False, **kwargs)
给定一个或多个路径,返回从这些路径读取的延迟对象。
路径可以是像
'2015-01-01.csv'
这样的文件名,也可以是像'2015-*-*.csv'
这样的全局字符串。如果安装了这些库,则路径前面可能有协议,例如
s3://
或hdfs://
。如果给定,这将通过分隔符干净地打破数据,以便块边界直接在分隔符之后开始并在分隔符处结束。
- urlpath:字符串或列表
绝对或相对文件路径。使用
s3://
之类的协议作为前缀,以从替代文件系统中读取。要从多个文件中读取,您可以传递一个 globstring 或路径列表,但需要注意的是它们都必须具有相同的协议。- delimiter:字节
一个可选的分隔符,如
b'\n'
,用于分割字节块。- not_zero:bool
强制查找start-of-file 分隔符,丢弃标头。
- blocksize:整数,字符串
块大小(以字节为单位),默认为“128 MiB”
- compression:字符串或无
‘gzip’ or ‘xz’ 之类的字符串。必须支持有效的随机访问。
- sample:整数、字符串或布尔值
是否返回标头样本。值可以是
False
for “no sample requested” 或整数或字符串值,例如2**20
或"1 MiB"
- include_path:bool
是否包含表示特定文件的字节的路径。默认为假。
- **kwargs:dict
对特定存储连接有意义的额外选项,例如主机、端口、用户名、密码等
- sample:字节
示例标题
- blocks:
dask.Delayed
列表列表 每个列表对应一个文件,每个延迟对象从该文件计算一个字节块。
- paths:字符串列表,仅在 include_path 为 True 时包含
与块长度相同的列表,其中每个项目是对应块中表示的文件的路径。
参数:
返回:
例子:
>>> sample, blocks = read_bytes('2015-*-*.csv', delimiter=b'\n') >>> sample, blocks = read_bytes('s3://bucket/2015-*-*.csv', delimiter=b'\n') >>> sample, paths, blocks = read_bytes('2015-*-*.csv', include_path=True)
相关用法
- Python dask.bag.Bag.frequencies用法及代码示例
- Python dask.bag.Bag.to_textfiles用法及代码示例
- Python dask.bag.Bag.repartition用法及代码示例
- Python dask.bag.Bag.join用法及代码示例
- Python dask.bag.Bag.accumulate用法及代码示例
- Python dask.bag.Bag.fold用法及代码示例
- Python dask.bag.Bag.map_partitions用法及代码示例
- Python dask.bag.Bag.groupby用法及代码示例
- Python dask.bag.map用法及代码示例
- Python dask.bag.Bag.reduction用法及代码示例
- Python dask.bag.Bag.foldby用法及代码示例
- Python dask.bag.range用法及代码示例
- Python dask.bag.Bag.flatten用法及代码示例
- Python dask.bag.from_sequence用法及代码示例
- Python dask.bag.random.sample用法及代码示例
- Python dask.bag.Bag.remove用法及代码示例
- Python dask.bag.Bag.random_sample用法及代码示例
- Python dask.bag.random.choices用法及代码示例
- Python dask.bag.Item.visualize用法及代码示例
- Python dask.bag.Bag.distinct用法及代码示例
注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.bytes.read_bytes。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。