ray.data.Dataset.write_images#

Dataset.write_images(path: str, column: str, file_format: str = 'png', *, filesystem: pyarrow.fs.FileSystem | None = None, try_create_dir: bool = True, arrow_open_stream_args: Dict[str, Any] | None = None, filename_provider: FilenameProvider | None = None, ray_remote_args: Dict[str, Any] = None, concurrency: int | None = None) → None[源代码]#

将 Dataset 写入图像。

备注

此操作将触发对此数据集执行的延迟转换。

示例

>>> import ray
>>> ds = ray.data.read_images("s3://anonymous@ray-example-data/image-datasets/simple")
>>> ds.write_images("local:///tmp/images", column="image")

时间复杂度：O(数据集大小 / 并行度)

参数:

path – 目标根目录的路径，图像将写入该目录。
column – 包含您要写入图像的数据的列。
file_format – 要写入的图像文件格式。有关可用选项，请参见图像文件格式。
filesystem – 要写入的 pyarrow 文件系统实现。这些文件系统在 pyarrow 文档中指定。如果需要为文件系统提供特定配置，请指定此项。默认情况下，文件系统会根据路径的方案自动选择。例如，如果路径以 s3:// 开头，则使用 S3FileSystem。
try_create_dir – 如果 True，尝试创建目标路径中的所有目录。如果所有目录已经存在，则不执行任何操作。默认为 True。
arrow_open_stream_args – 传递给 pyarrow.fs.FileSystem.open_output_stream 的 kwargs，用于打开文件进行写入时使用。
filename_provider – 一个 FilenameProvider 实现。使用此参数自定义文件名的外观。
ray_remote_args – 传递给写任务中 remote() 的 kwargs。
concurrency – Ray 任务的最大并发运行数量。设置此参数以控制并发运行的任务数量。这不会改变运行的任务总数。默认情况下，并发性是根据可用资源动态决定的。

PublicAPI (alpha): 此API处于alpha阶段，可能在稳定之前发生变化。