Python dask.dataframe.read_hdf用法及代码示例

用法: dask.dataframe.read_hdf(pattern, key, start=0, stop=None, columns=None, chunksize=1000000, sorted_index=False, lock=True, mode='r')

将 HDF 文件读入 Dask DataFrame

将 hdf 文件读入 dask 数据帧。此函数类似于 pandas.read_hdf ，不同之处在于它可以从单个大文件、多个文件或同一文件的多个键中读取。

pattern：字符串，pathlib.Path，列表

文件模式(字符串)、pathlib.Path、要读取的缓冲区或文件路径列表。可以包含通配符。

key：商店中的组标识符。可以包含通配符

start：可选，整数(默认为 0)，开始的行号

stop：可选，整数(默认为无，最后一行)，行号为

停在

columns：列列表，可选

列列表，如果不是 None，将限制返回列(默认为 None)

chunksize：正整数，可选

每个分区的最大行数(默认为 1000000)。

sorted_index：布尔值，可选

用于指定输入 hdf 文件是否具有排序索引的选项(默认为 False)。

lock：布尔值，可选

使用锁来防止并发问题的选项(默认为 True)。

mode：{‘a’, ‘r’, ‘r+’}，默认 ‘r’。打开文件时使用的模式。

加载单个文件

>>> dd.read_hdf('myfile.1.hdf5', '/x')

加载多个文件

>>> dd.read_hdf('myfile.*.hdf5', '/x')

>>> dd.read_hdf(['myfile.1.hdf5', 'myfile.2.hdf5'], '/x')

加载多个数据集

>>> dd.read_hdf('myfile.1.hdf5', '/*')

相关用法

注：本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.read_hdf。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。