用法:
dask.dataframe.read_hdf(pattern, key, start=0, stop=None, columns=None, chunksize=1000000, sorted_index=False, lock=True, mode='r')
将 HDF 文件读入 Dask DataFrame
将 hdf 文件读入 dask 数据帧。此函数类似于
pandas.read_hdf
,不同之处在于它可以从单个大文件、多个文件或同一文件的多个键中读取。- pattern:字符串,pathlib.Path,列表
文件模式(字符串)、pathlib.Path、要读取的缓冲区或文件路径列表。可以包含通配符。
- key:商店中的组标识符。可以包含通配符
- start:可选,整数(默认为 0),开始的行号
- stop:可选,整数(默认为无,最后一行),行号为
停在
- columns:列列表,可选
列列表,如果不是 None,将限制返回列(默认为 None)
- chunksize:正整数,可选
每个分区的最大行数(默认为 1000000)。
- sorted_index:布尔值,可选
用于指定输入 hdf 文件是否具有排序索引的选项(默认为 False)。
- lock:布尔值,可选
使用锁来防止并发问题的选项(默认为 True)。
- mode:{‘a’, ‘r’, ‘r+’},默认 ‘r’。打开文件时使用的模式。
- ‘r’
只读;不能修改任何数据。
- ‘a’
附加;打开现有文件进行读写,如果文件不存在,则创建它。
- ‘r+’
它类似于‘a’,但文件必须已经存在。
- dask.DataFrame
参数:
返回:
例子:
加载单个文件
>>> dd.read_hdf('myfile.1.hdf5', '/x')
加载多个文件
>>> dd.read_hdf('myfile.*.hdf5', '/x')
>>> dd.read_hdf(['myfile.1.hdf5', 'myfile.2.hdf5'], '/x')
加载多个数据集
>>> dd.read_hdf('myfile.1.hdf5', '/*')
相关用法
- Python dask.dataframe.read_table用法及代码示例
- Python dask.dataframe.read_json用法及代码示例
- Python dask.dataframe.read_fwf用法及代码示例
- Python dask.dataframe.read_sql_table用法及代码示例
- Python dask.dataframe.read_parquet用法及代码示例
- Python dask.dataframe.read_csv用法及代码示例
- Python dask.dataframe.read_orc用法及代码示例
- Python dask.dataframe.reshape.get_dummies用法及代码示例
- Python dask.dataframe.rolling.Rolling.var用法及代码示例
- Python dask.dataframe.rolling.Rolling.count用法及代码示例
- Python dask.dataframe.rolling.Rolling.min用法及代码示例
- Python dask.dataframe.rolling.Rolling.quantile用法及代码示例
- Python dask.dataframe.rolling.Rolling.std用法及代码示例
- Python dask.dataframe.rolling.Rolling.sum用法及代码示例
- Python dask.dataframe.rolling.Rolling.kurt用法及代码示例
- Python dask.dataframe.rolling.Rolling.mean用法及代码示例
- Python dask.dataframe.rolling.Rolling.median用法及代码示例
- Python dask.dataframe.Series.apply用法及代码示例
- Python dask.dataframe.to_records用法及代码示例
- Python dask.dataframe.DataFrame.applymap用法及代码示例
注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.read_hdf。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。