在 Ray 上使用 Pandas (Modin)#

Modin ，以前称为 Pandas on Ray，是一个数据帧操作库，允许用户通过作为替代品来加速他们的 pandas 工作负载。Modin 还支持其他 API（例如电子表格）和库，如 xgboost。

import modin.pandas as pd
import ray

ray.init()
df = pd.read_parquet("s3://my-bucket/big.parquet")

您可以在笔记本电脑或集群上使用 Modin 和 Ray。在本文件中，我们展示了如何设置一个与 Modin 兼容的 Ray 集群，并将 Modin 连接到 Ray 的说明。

备注

在 Modin 的早期版本中，您必须在导入 Modin 之前初始化 Ray。从 Modin 0.9.0 开始，情况不再如此。

使用 Modin 与 Ray 的自动扩展器#

为了在使用 Ray 的自动扩展器时使用 Modin，您需要在启动时确保安装了正确的依赖项。Modin 的仓库中有一个示例 yaml 文件和一组教程笔记本，以确保 Ray 集群具有正确的依赖项。一旦集群启动，只需导入即可连接 Modin。

import modin.pandas as pd
import ray

ray.init(address="auto")
df = pd.read_parquet("s3://my-bucket/big.parquet")

只要在创建任何数据框之前初始化 Ray，Modin 就能够连接并使用 Ray 集群。

Modin 如何使用 Ray#

Modin 具有分层架构，数据操作的核心抽象是 Modin Dataframe，它实现了一种新颖的代数，使 Modin 能够处理所有 pandas 操作（有关架构的更多信息，请参阅 Modin 的文档）。Modin 的内部 dataframe 对象具有一个调度层，能够使用 Ray 对数据进行分区和操作。

数据框操作#

Modin Dataframe 使用 Ray 任务来执行数据操作。与数据操作的 actor 模型相比，Ray 任务具有许多优势：

多个任务可能同时操作相同的对象
Ray 对象存储中的对象是不可变的，这使得来源和血统更容易追踪。
随着新工人上线，数据的重新分配将在新节点上安排任务时发生
相同的分区不需要被复制，这对于选择性修改数据的操作（例如 fillna）特别有益。
更细粒度的并行性与更细粒度的放置控制

机器学习#

Modin 使用 Ray Actors 来支持其当前提供的机器学习功能。Modin 对 XGBoost 的实现能够为每个节点启动一个 actor，并将该节点上的所有分区聚合到 XGBoost Actor。Modin 能够在创建时为每个 actor 精确指定节点 IP，从而对放置进行精细控制——这对于分布式训练性能是必须的。