dask.dataframe.read_hdf
dask.dataframe.read_hdf¶
- dask.dataframe.read_hdf(pattern, key, start=0, stop=None, columns=None, chunksize=1000000, sorted_index=False, lock=True, mode='r')[源代码]¶
将 HDF 文件读取到 Dask DataFrame 中
将hdf文件读入dask数据框。此函数类似于
pandas.read_hdf
,但它可以读取单个大文件,或从多个文件读取,或从同一文件的多个键读取。- 参数
- 模式string, pathlib.Path, list
文件模式(字符串)、pathlib.Path、读取缓冲区或文件路径列表。可以包含通配符。
- 关键存储中的组标识符。可以包含通配符。
- 开始可选,整数(默认为0),起始行号
- 停止可选,整数(默认为 None,即最后一行),行号为
停止于
- 列列的列表,可选
如果列的列表不为 None,将限制返回的列(默认是 None)
- chunksize正整数,可选
每个分区的最大行数(默认是1000000)。
- sorted_index布尔值,可选
指定输入的hdf文件是否具有排序索引的选项(默认值为False)。
- 锁布尔值,可选
使用锁来防止并发问题的选项(默认是True)。
- 模式{‘a’, ‘r’, ‘r+’}, 默认 ‘r’。打开文件时使用的模式。
- ‘r’
只读;无法修改数据。
- ‘a’
追加;打开现有文件进行读写,如果文件不存在则创建。
- ‘r+’
它类似于 ‘a’,但文件必须已经存在。
- 返回
- dask.DataFrame
示例
加载单个文件
>>> dd.read_hdf('myfile.1.hdf5', '/x')
加载多个文件
>>> dd.read_hdf('myfile.*.hdf5', '/x')
>>> dd.read_hdf(['myfile.1.hdf5', 'myfile.2.hdf5'], '/x')
加载多个数据集
>>> dd.read_hdf('myfile.1.hdf5', '/*')