dask.dataframe.read_hdf

dask.dataframe.read_hdf¶

dask.dataframe.read_hdf(pattern, key, start=0, stop=None, columns=None, chunksize=1000000, sorted_index=False, lock=True, mode='r')[源代码]¶

将 HDF 文件读取到 Dask DataFrame 中

将hdf文件读入dask数据框。此函数类似于 pandas.read_hdf ，但它可以读取单个大文件，或从多个文件读取，或从同一文件的多个键读取。

参数

模式string, pathlib.Path, list

文件模式（字符串）、pathlib.Path、读取缓冲区或文件路径列表。可以包含通配符。

关键存储中的组标识符。可以包含通配符。

开始可选，整数（默认为0），起始行号

停止可选，整数（默认为 None，即最后一行），行号为

停止于

列列的列表，可选

如果列的列表不为 None，将限制返回的列（默认是 None）

chunksize正整数，可选

每个分区的最大行数（默认是1000000）。

sorted_index布尔值，可选

指定输入的hdf文件是否具有排序索引的选项（默认值为False）。

锁布尔值，可选

使用锁来防止并发问题的选项（默认是True）。

模式{‘a’, ‘r’, ‘r+’}, 默认 ‘r’。打开文件时使用的模式。

‘r’: 只读；无法修改数据。
‘a’: 追加；打开现有文件进行读写，如果文件不存在则创建。
‘r+’: 它类似于 ‘a’，但文件必须已经存在。

返回

dask.DataFrame

示例

加载单个文件

>>> dd.read_hdf('myfile.1.hdf5', '/x')  

加载多个文件

>>> dd.read_hdf('myfile.*.hdf5', '/x')  

>>> dd.read_hdf(['myfile.1.hdf5', 'myfile.2.hdf5'], '/x')  

加载多个数据集

>>> dd.read_hdf('myfile.1.hdf5', '/*')  

dask.dataframe.read_parquet

dask.dataframe.read_json