在LSF上部署#
本文档描述了在LSF上运行Ray集群的几个高级步骤。
使用 bsub 指令从 LSF 调度器中获取所需节点。
在所需节点上获取免费端口以启动 ray 服务,如仪表板、GCS 等。
在可用节点之一上启动 ray 头节点。
将所有工作节点连接到头节点。
执行端口转发以访问 ray 仪表板。
步骤1-4已经自动化,可以轻松地作为脚本运行,请参考下面的GitHub仓库以访问脚本并运行示例工作负载:
ray_LSF 使用 LSF 的 Ray。用户可以在 LSF 上启动一个 Ray 集群,并通过该集群以批处理或交互模式运行 DL 工作负载。