ray.data.Dataset.to_modin#
- Dataset.to_modin() modin.pandas.dataframe.DataFrame[源代码]#
将此
Dataset转换为 Modin DataFrame。这是通过首先将此数据集转换为一组分布式的 Pandas DataFrame(使用
Dataset.to_pandas_refs())来实现的。请参阅其中的注意事项。然后,使用这些单独的 DataFrame 通过modin.distributed.dataframe.pandas.partitions.from_partitions()创建 Modin DataFrame。这仅支持可转换为 Arrow 记录的数据集。此函数会导致数据的复制。对于底层数据的零拷贝访问,请考虑使用
to_arrow_refs()或iter_internal_ref_bundles()。备注
此操作将触发对此数据集执行的延迟转换。
时间复杂度:O(数据集大小 / 并行度)
- 返回:
从该数据集创建的 Modin DataFrame。