ray.data.Dataset.write_datasink#

Dataset.write_datasink(datasink: Datasink, *, ray_remote_args: Dict[str, Any] = None, concurrency: int | None = None) None[源代码]#

将数据集写入自定义的 Datasink

备注

此操作将触发对此数据集执行的延迟转换。

时间复杂度:O(数据集大小 / 并行度)

参数:
  • datasink – 要写入的 Datasink

  • ray_remote_args – 在写任务中传递给 ray.remote 的 Kwargs。

  • concurrency – Ray 任务的最大并发运行数量。设置此参数以控制并发运行的任务数量。这不会改变运行的任务总数。默认情况下,并发性是根据可用资源动态决定的。