ray.data.Dataset.to_dask#
- Dataset.to_dask(meta: pandas.DataFrame | pandas.Series | Dict[str, Any] | Iterable[Any] | Tuple[Any] | None = None, verify_meta: bool = True) dask.dataframe.DataFrame [源代码]#
将此
Dataset
转换为 Dask DataFrame。这仅支持可转换为 Arrow 记录的数据集。
请注意,此函数将通过配置将 Dask 调度器全局设置为 Dask-on-Ray。
备注
此操作将触发对此数据集执行的延迟转换。
时间复杂度:O(数据集大小 / 并行度)
- 参数:
meta – 一个空的 pandas DataFrame 或 Series ,其数据类型和列名与流匹配。这些元数据对于 dask dataframe 中的许多算法正常工作是必要的。为了便于使用,还提供了一些替代输入。除了 DataFrame,还可以提供一个
{name: dtype}
的字典或(name, dtype)
的可迭代对象(注意名称的顺序应与列的顺序匹配)。除了 Series,可以使用(name, dtype)
的元组。默认情况下,这是从底层 Dataset 模式推断出来的,这个参数提供了可选的覆盖。verify_meta – 如果为 True,Dask 将检查分区是否具有一致的元数据。默认为 True。
- 返回:
从该数据集创建的 Dask DataFrame。