ray.data.datasource.FileBasedDatasource#

class ray.data.datasource.FileBasedDatasource(paths: str | ~typing.List[str], *, filesystem: pyarrow.fs.FileSystem | None = None, schema: type | pyarrow.lib.Schema | None = None, open_stream_args: ~typing.Dict[str, ~typing.Any] | None = None, meta_provider: ~ray.data.datasource.file_meta_provider.BaseFileMetadataProvider = <ray.data.datasource.file_meta_provider.DefaultFileMetadataProvider object>, partition_filter: ~ray.data.datasource.partitioning.PathPartitionFilter = None, partitioning: ~ray.data.datasource.partitioning.Partitioning = None, ignore_missing_paths: bool = False, shuffle: ~typing.Literal['files'] | None = None, include_paths: bool = False, file_extensions: ~typing.List[str] | None = None)[源代码]#

基类:Datasource

基于文件的数据源,用于读取文件。

不要直接使用这个类。相反,应该继承它并实现 _read_stream()

开发者API: 此API可能会在Ray的次要版本之间发生变化。

方法

create_reader

已弃用:请实现 get_read_tasks()estimate_inmemory_data_size() 代替。

get_name

返回此数据源的人类可读名称。

prepare_read

已弃用:请实现 get_read_tasks()estimate_inmemory_data_size() 代替。

属性

should_create_reader

supports_distributed_reads

如果 False ,仅在驱动节点上启动读取任务。