dask_expr.read_orc
dask_expr.read_orc¶
- dask_expr.read_orc(path, engine='pyarrow', columns=None, index=None, split_stripes=1, aggregate_files=None, storage_options=None)[源代码]¶
从 ORC 文件中读取数据框
- 参数
- 路径: str 或 list(str)
文件的位置,可以是带有协议说明符的完整URL,如果是一个字符串,还可以包含通配符。
- 引擎: ‘pyarrow’ 或 ORCEngine
用于I/O的后端ORC引擎。默认是“pyarrow”。
- columns: None 或 list(str)
要加载的列。如果为 None,则加载所有列。
- index: str
要设置为索引的列名。
- split_stripes: int 或 False
每个输出-DataFrame分区中包含的最大ORC条带数。使用False指定文件和分区之间的一对一映射。默认值为1。
- aggregate_filesbool, 默认 False
是否可以将不同的文件路径聚合到同一个输出分区中。设置为 True 意味着任何两个文件路径都可以聚合到同一个输出分区中,而 False 则意味着禁止文件间聚合。
- storage_options: None 或 dict
传递给字节后端的进一步参数。
- 返回
- Dask.DataFrame(即使只有一列)
示例
>>> df = dd.read_orc('https://github.com/apache/orc/raw/' ... 'master/examples/demo-11-zlib.orc')