ray.data.Dataset.write_datasink#
- Dataset.write_datasink(datasink: Datasink, *, ray_remote_args: Dict[str, Any] = None, concurrency: int | None = None) None [源代码]#
将数据集写入自定义的
Datasink
。备注
此操作将触发对此数据集执行的延迟转换。
时间复杂度:O(数据集大小 / 并行度)
- 参数:
datasink – 要写入的
Datasink
。ray_remote_args – 在写任务中传递给
ray.remote
的 Kwargs。concurrency – Ray 任务的最大并发运行数量。设置此参数以控制并发运行的任务数量。这不会改变运行的任务总数。默认情况下,并发性是根据可用资源动态决定的。