在LSF上部署#

本文档描述了在LSF上运行Ray集群的几个高级步骤。

  1. 使用 bsub 指令从 LSF 调度器中获取所需节点。

  2. 在所需节点上获取免费端口以启动 ray 服务,如仪表板、GCS 等。

  3. 在可用节点之一上启动 ray 头节点。

  4. 将所有工作节点连接到头节点。

  5. 执行端口转发以访问 ray 仪表板。

步骤1-4已经自动化,可以轻松地作为脚本运行,请参考下面的GitHub仓库以访问脚本并运行示例工作负载:

  • ray_LSF 使用 LSF 的 Ray。用户可以在 LSF 上启动一个 Ray 集群,并通过该集群以批处理或交互模式运行 DL 工作负载。