ray.data.read_json#
- ray.data.read_json(paths: str | List[str], *, filesystem: pyarrow.fs.FileSystem | None = None, parallelism: int = -1, ray_remote_args: Dict[str, Any] = None, arrow_open_stream_args: Dict[str, Any] | None = None, meta_provider: BaseFileMetadataProvider | None = None, partition_filter: PathPartitionFilter | None = None, partitioning: Partitioning = Partitioning(style='hive', base_dir='', field_names=None, filesystem=None), include_paths: bool = False, ignore_missing_paths: bool = False, shuffle: Literal['files'] | None = None, file_extensions: List[str] | None = ['json', 'jsonl'], concurrency: int | None = None, override_num_blocks: int | None = None, **arrow_json_args) Dataset [源代码]#
从 JSON 和 JSONL 文件创建
Dataset
。对于JSON文件,整个文件被读取为一行。对于JSONL文件,文件的每一行被读取为单独的一行。
示例
读取远程存储中的JSON文件。
>>> import ray >>> ds = ray.data.read_json("s3://anonymous@ray-example-data/log.json") >>> ds.schema() Column Type ------ ---- timestamp timestamp[...] size int64
读取远程存储中的JSONL文件。
>>> ds = ray.data.read_json("s3://anonymous@ray-example-data/train.jsonl") >>> ds.schema() Column Type ------ ---- input string
读取多个本地文件。
>>> ray.data.read_json( ... ["local:///path/to/file1", "local:///path/to/file2"])
读取多个目录。
>>> ray.data.read_json( ... ["s3://bucket/path1", "s3://bucket/path2"])
默认情况下,
read_json()
从文件路径解析 Hive 风格的分区 。如果你的数据遵循不同的分区方案,请设置partitioning
参数。>>> ds = ray.data.read_json("s3://anonymous@ray-example-data/year=2022/month=09/sales.json") >>> ds.take(1) [{'order_number': 10107, 'quantity': 30, 'year': '2022', 'month': '09'}]
- 参数:
paths – 单个文件或目录,或文件或目录路径的列表。路径列表可以同时包含文件和目录。
filesystem – 用于读取的 PyArrow 文件系统实现。这些文件系统在 PyArrow 文档 中指定。如果需要为文件系统提供特定配置,请指定此参数。默认情况下,文件系统会根据路径的方案自动选择。例如,如果路径以
s3://
开头,则使用S3FileSystem
。parallelism – 此参数已弃用。请使用
override_num_blocks
参数。ray_remote_args – 传递给读取任务中
remote()
的 kwargs。arrow_open_stream_args – 传递给 pyarrow.fs.FileSystem.open_input_file 的 kwargs,用于打开输入文件进行读取。
meta_provider – 一个 文件元数据提供者 。自定义元数据提供者可能能够更快和/或更准确地解析文件元数据。在大多数情况下,您不需要设置此项。如果为
None
,此函数使用系统选择的实现。partition_filter – 一个
PathPartitionFilter
。与自定义回调一起使用,以仅读取数据集的选定分区。默认情况下,这将过滤掉文件扩展名不匹配“.json”或“.jsonl”的任何文件路径。partitioning – 一个描述路径组织方式的
Partitioning
对象。默认情况下,此函数解析 Hive 风格的分区。include_paths – 如果
True
,则包含每个文件的路径。文件路径存储在'path'
列中。ignore_missing_paths – 如果为 True,则忽略
paths
中未找到的任何文件路径。默认为 False。shuffle – 如果设置为“files”,在读取前随机打乱输入文件的顺序。默认不进行打乱,使用
None
。arrow_json_args – 读取 JSON 的选项,传递给 pyarrow.json.read_json。
file_extensions – 用于筛选文件的文件扩展名列表。
concurrency – Ray 任务的最大并发运行数量。设置此项以控制并发运行的任务数量。这不会改变运行的总任务数或输出的总块数。默认情况下,并发性是根据可用资源动态决定的。
override_num_blocks – 覆盖所有读取任务的输出块数量。默认情况下,输出块的数量是根据输入数据大小和可用资源动态决定的。在大多数情况下,您不应手动设置此值。
- 返回:
Dataset
从指定路径读取记录并生成数据集。