dask.dataframe.read_hdf

dask.dataframe.read_hdf

dask.dataframe.read_hdf(pattern, key, start=0, stop=None, columns=None, chunksize=1000000, sorted_index=False, lock=True, mode='r')[源代码]

将 HDF 文件读取到 Dask DataFrame 中

将hdf文件读入dask数据框。此函数类似于 pandas.read_hdf ,但它可以读取单个大文件,或从多个文件读取,或从同一文件的多个键读取。

参数
模式string, pathlib.Path, list

文件模式(字符串)、pathlib.Path、读取缓冲区或文件路径列表。可以包含通配符。

关键存储中的组标识符。可以包含通配符。
开始可选,整数(默认为0),起始行号
停止可选,整数(默认为 None,即最后一行),行号为

停止于

列的列表,可选

如果列的列表不为 None,将限制返回的列(默认是 None)

chunksize正整数,可选

每个分区的最大行数(默认是1000000)。

sorted_index布尔值,可选

指定输入的hdf文件是否具有排序索引的选项(默认值为False)。

布尔值,可选

使用锁来防止并发问题的选项(默认是True)。

模式{‘a’, ‘r’, ‘r+’}, 默认 ‘r’。打开文件时使用的模式。
‘r’

只读;无法修改数据。

‘a’

追加;打开现有文件进行读写,如果文件不存在则创建。

‘r+’

它类似于 ‘a’,但文件必须已经存在。

返回
dask.DataFrame

示例

加载单个文件

>>> dd.read_hdf('myfile.1.hdf5', '/x')  

加载多个文件

>>> dd.read_hdf('myfile.*.hdf5', '/x')  
>>> dd.read_hdf(['myfile.1.hdf5', 'myfile.2.hdf5'], '/x')  

加载多个数据集

>>> dd.read_hdf('myfile.1.hdf5', '/*')