ray.data.read_numpy#

ray.data.read_numpy(paths: str | List[str], *, filesystem: pyarrow.fs.FileSystem | None = None, parallelism: int = -1, arrow_open_stream_args: Dict[str, Any] | None = None, meta_provider: BaseFileMetadataProvider | None = None, partition_filter: PathPartitionFilter | None = None, partitioning: Partitioning = None, include_paths: bool = False, ignore_missing_paths: bool = False, shuffle: Literal['files'] | None = None, file_extensions: List[str] | None = ['npy'], concurrency: int | None = None, override_num_blocks: int | None = None, **numpy_load_args) Dataset[源代码]#

从numpy文件创建一个Arrow数据集。

示例

读取远程存储中的文件目录。

>>> import ray
>>> ray.data.read_numpy("s3://bucket/path") 

读取多个本地文件。

>>> ray.data.read_numpy(["/path/to/file1", "/path/to/file2"]) 

读取多个目录。

>>> ray.data.read_numpy( 
...     ["s3://bucket/path1", "s3://bucket/path2"])
参数:
  • paths – 单个文件/目录路径或文件/目录路径列表。路径列表可以同时包含文件和目录。

  • filesystem – 用于读取的文件系统实现。

  • parallelism – 此参数已弃用。请使用 override_num_blocks 参数。

  • arrow_open_stream_args – 传递给 pyarrow.fs.FileSystem.open_input_stream 的 kwargs。

  • numpy_load_args – 传递给 np.load 的其他选项。

  • meta_provider – 文件元数据提供者。自定义元数据提供者可能能够更快和/或更准确地解析文件元数据。如果为 None ,此函数使用系统选择的实现。

  • partition_filter – 基于路径的分区过滤器(如果有)。可以与自定义回调一起使用,以仅读取数据集的选定分区。默认情况下,此过滤器会排除文件扩展名不匹配“.npy”的任何文件路径。

  • partitioning – 一个描述路径如何组织的 Partitioning 对象。默认为 None

  • include_paths – 如果 True,则包含每个文件的路径。文件路径存储在 'path' 列中。

  • ignore_missing_paths – 如果为 True,则忽略 paths 中未找到的任何文件路径。默认为 False。

  • shuffle – 如果设置为“files”,在读取前随机打乱输入文件的顺序。默认不进行打乱,使用 None

  • file_extensions – 用于筛选文件的文件扩展名列表。

  • concurrency – Ray 任务的最大并发运行数量。设置此项以控制并发运行的任务数量。这不会改变运行的总任务数或输出的总块数。默认情况下,并发性是根据可用资源动态决定的。

  • override_num_blocks – 覆盖所有读取任务的输出块数量。默认情况下,输出块的数量是根据输入数据大小和可用资源动态决定的。在大多数情况下,您不应手动设置此值。

返回:

从指定路径读取的张量记录数据集。