Ray 集群概览#

Ray 能够无缝扩展从笔记本电脑到大型集群的工作负载。虽然 Ray 在单台机器上只需调用 ray.init 即可开箱即用,但要在多个节点上运行 Ray 应用程序,您必须首先 部署一个 Ray 集群

Ray 集群是一组连接到共同 Ray 头节点 的工作节点。Ray 集群可以是固定大小的,或者它们可以根据集群上运行的应用程序请求的资源 自动扩展和缩减

我可以在哪里部署 Ray 集群?#

Ray 在以下技术栈上提供原生集群部署支持:

  • AWS 和 GCP 上。社区支持的 Azure、阿里云和 vSphere 集成也存在。

  • Kubernetes 上,通过官方支持的 KubeRay 项目。

高级用户可能希望 手动部署 Ray 或部署到 此处未列出的平台

备注

多节点 Ray 集群仅在 Linux 上受支持。您可以自行承担风险,在部署时通过设置环境变量 RAY_ENABLE_WINDOWS_OR_OSX_CLUSTER=1 来部署 Windows 和 OSX 集群。

接下来是什么?#

我想学习 Ray 集群的关键概念

理解与Ray集群交互的关键概念和主要方式。

我想在 Kubernetes 上运行 Ray

将 Ray 应用程序部署到 Kubernetes 集群。您可以在 Kubernetes 集群上或通过 Kind 在笔记本电脑上运行教程。

我想在云服务提供商上运行 Ray

将一个设计在笔记本电脑上运行的示例应用程序扩展到云端。需要访问AWS或GCP账户。

我想在现有的 Ray 集群上运行我的应用程序

将应用程序作为作业提交到现有 Ray 集群的指南。