ray.data.Dataset.to_dask#

Dataset.to_dask(meta: pandas.DataFrame | pandas.Series | Dict[str, Any] | Iterable[Any] | Tuple[Any] | None = None, verify_meta: bool = True) dask.dataframe.DataFrame[源代码]#

将此 Dataset 转换为 Dask DataFrame

这仅支持可转换为 Arrow 记录的数据集。

请注意,此函数将通过配置将 Dask 调度器全局设置为 Dask-on-Ray。

备注

此操作将触发对此数据集执行的延迟转换。

时间复杂度:O(数据集大小 / 并行度)

参数:
  • meta – 一个空的 pandas DataFrameSeries ,其数据类型和列名与流匹配。这些元数据对于 dask dataframe 中的许多算法正常工作是必要的。为了便于使用,还提供了一些替代输入。除了 DataFrame,还可以提供一个 {name: dtype} 的字典或 (name, dtype) 的可迭代对象(注意名称的顺序应与列的顺序匹配)。除了 Series,可以使用 (name, dtype) 的元组。默认情况下,这是从底层 Dataset 模式推断出来的,这个参数提供了可选的覆盖。

  • verify_meta – 如果为 True,Dask 将检查分区是否具有一致的元数据。默认为 True。

返回:

从该数据集创建的 Dask DataFrame