dask.dataframe.read_orc

dask.dataframe.read_orc¶

dask.dataframe.read_orc(path, engine='pyarrow', columns=None, index=None, split_stripes=1, aggregate_files=None, storage_options=None)[源代码]¶

从 ORC 文件中读取数据框

参数

路径: str 或 list(str): 文件的位置，可以是带有协议说明符的完整URL，如果是一个字符串，还可以包含通配符。
引擎: ‘pyarrow’ 或 ORCEngine: 用于I/O的后端ORC引擎。默认是“pyarrow”。
columns: None 或 list(str): 要加载的列。如果为 None，则加载所有列。
index: str: 要设置为索引的列名。
split_stripes: int 或 False: 每个输出-DataFrame分区中包含的最大ORC条带数。使用False指定文件和分区之间的一对一映射。默认值为1。
aggregate_filesbool, 默认 False: 是否可以将不同的文件路径聚合到同一个输出分区中。设置为 True 意味着任何两个文件路径都可以聚合到同一个输出分区中，而 False 则意味着禁止文件间聚合。
storage_options: None 或 dict: 传递给字节后端的进一步参数。

返回

Dask.DataFrame（即使只有一列）

示例

>>> df = dd.read_orc('https://github.com/apache/orc/raw/'
...                  'master/examples/demo-11-zlib.orc')  

dask.dataframe.read_json

dask.dataframe.read_sql_table