dask.dataframe.read_orc

dask.dataframe.read_orc

dask.dataframe.read_orc(path, engine='pyarrow', columns=None, index=None, split_stripes=1, aggregate_files=None, storage_options=None)[源代码]

从 ORC 文件中读取数据框

参数
路径: str 或 list(str)

文件的位置,可以是带有协议说明符的完整URL,如果是一个字符串,还可以包含通配符。

引擎: ‘pyarrow’ 或 ORCEngine

用于I/O的后端ORC引擎。默认是“pyarrow”。

columns: None 或 list(str)

要加载的列。如果为 None,则加载所有列。

index: str

要设置为索引的列名。

split_stripes: int 或 False

每个输出-DataFrame分区中包含的最大ORC条带数。使用False指定文件和分区之间的一对一映射。默认值为1。

aggregate_filesbool, 默认 False

是否可以将不同的文件路径聚合到同一个输出分区中。设置为 True 意味着任何两个文件路径都可以聚合到同一个输出分区中,而 False 则意味着禁止文件间聚合。

storage_options: None 或 dict

传递给字节后端的进一步参数。

返回
Dask.DataFrame(即使只有一列)

示例

>>> df = dd.read_orc('https://github.com/apache/orc/raw/'
...                  'master/examples/demo-11-zlib.orc')