ray.data.读取_web数据集#

从 WebDataset 文件创建一个 Dataset。

参数:

paths – 单个文件/目录路径或文件/目录路径列表。路径列表可以同时包含文件和目录。
filesystem – 用于读取的文件系统实现。
parallelism – 此参数已弃用。请使用 override_num_blocks 参数。
arrow_open_stream_args – 传递给 pyarrow.fs.FileSystem.open_input_stream 的关键字参数。要读取压缩的 TFRecord 文件，请传递相应的压缩类型（例如，对于 GZIP 或 ZLIB，使用 arrow_open_stream_args={'compression': 'gzip'}）。
meta_provider – 文件元数据提供者。自定义元数据提供者可能能够更快和/或更准确地解析文件元数据。如果为 None ，此函数使用系统选择的实现。
partition_filter – 基于路径的分区过滤器，如果有的话。可以与自定义回调一起使用，以仅读取数据集的选定分区。
decoder – 用于解码数据的函数或函数列表。
fileselect – 一个可调用对象或全局模式列表，用于选择文件。
filerename – 一个函数或元组列表，用于在分组前重命名文件。
suffixes – 用于选择创建样本的后缀函数或后缀列表。
verbose_open – 是否在打开文件时打印文件名。
shuffle – 如果设置为“files”，在读取前随机打乱输入文件的顺序。默认不进行打乱，使用 None。
include_paths – 如果 True，则包含每个文件的路径。文件路径存储在 'path' 列中。
file_extensions – 用于筛选文件的文件扩展名列表。
concurrency – Ray 任务的最大并发运行数量。设置此项以控制并发运行的任务数量。这不会改变运行的总任务数或输出的总块数。默认情况下，并发性是根据可用资源动态决定的。
override_num_blocks – 覆盖所有读取任务的输出块数量。默认情况下，输出块的数量是根据输入数据大小和可用资源动态决定的。在大多数情况下，您不应手动设置此值。

返回:

一个包含示例特征的 Dataset。

抛出:

ValueError – 如果一个文件包含的消息不是 tf.train.Example。

PublicAPI (alpha): 此API处于alpha阶段，可能在稳定之前发生变化。