集群管理 CLI#

本节包含用于管理 Ray 集群的命令。

ray start#

在本地机器上手动启动 Ray 进程。

ray start [OPTIONS]

选项

--node-ip-address <node_ip_address>#

此节点的IP地址

--address <address>#

用于 Ray 的地址

--port <port>#

头部光线处理的端口。如果未提供,默认为6379;如果端口设置为0,我们将分配一个可用端口。

--object-manager-port <object_manager_port>#

用于启动对象管理器的端口

--node-manager-port <node_manager_port>#

用于启动节点管理器的端口

--gcs-server-port <gcs_server_port>#

GCS 服务器的端口号。

--min-worker-port <min_worker_port>#

工作者将绑定的最低端口号。如果未设置,将选择随机端口。

--max-worker-port <max_worker_port>#

工作进程将绑定的最高端口号。如果设置,则必须同时设置 ‘–min-worker-port’。

--worker-port-list <worker_port_list>#

一个逗号分隔的开放端口列表,供工作进程绑定。覆盖 ‘–min-worker-port’ 和 ‘–max-worker-port’。

--ray-client-server-port <ray_client_server_port>#

ray 客户端服务器绑定的端口号,默认为 10001,如果未安装 ray[client] 则为 None。

--object-store-memory <object_store_memory>#

对象存储启动时使用的内存量(以字节为单位)。默认情况下,这是可用系统内存的30%(ray_constants.DEFAULT_OBJECT_STORE_MEMORY_PROPORTION),上限为shm大小和200G(ray_constants.DEFAULT_OBJECT_STORE_MAX_MEMORY_BYTES),但可以设置得更高。

--num-cpus <num_cpus>#

此节点上的CPU数量

--num-gpus <num_gpus>#

此节点上的GPU数量

--resources <resources>#

一个将资源名称映射到资源数量的JSON序列化字典。

--head#

为头节点提供此参数

--include-dashboard <include_dashboard>#

提供此参数以启动 Ray 仪表板 GUI

--dashboard-host <dashboard_host>#

绑定仪表板服务器的主机,可以是 localhost (127.0.0.1) 或 0.0.0.0(所有接口都可用)。默认情况下,这是 127.0.0.1。

--dashboard-port <dashboard_port>#

绑定仪表板服务器的端口——默认为 8265

--dashboard-agent-listen-port <dashboard_agent_listen_port>#

仪表板代理监听http的端口。

--dashboard-agent-grpc-port <dashboard_agent_grpc_port>#

仪表板代理监听grpc的端口。

--dashboard-grpc-port <dashboard_grpc_port>#

仪表板头监听grpc的端口。

--runtime-env-agent-port <runtime_env_agent_port>#

运行时环境代理监听http的端口。

--block#

在此命令中提供此参数以永久阻塞

--plasma-directory <plasma_directory>#

内存映射文件的对象存储目录

--autoscaling-config <autoscaling_config>#

包含自动扩展配置的文件

--no-redirect-output#

不要将非工作者的标准输出和标准错误重定向到文件

--plasma-store-socket-name <plasma_store_socket_name>#

手动指定plasma存储的套接字名称

--raylet-socket-name <raylet_socket_name>#

手动指定 raylet 进程的套接字路径

--temp-dir <temp_dir>#

手动指定 Ray 进程的根临时目录,仅在指定 –head 时有效

--storage <storage>#

集群的持久存储URI。实验性功能。

--metrics-export-port <metrics_export_port>#

用于通过 Prometheus 端点暴露 Ray 指标的端口。

--ray-debugger-external#

使 Ray 调试器可在外部访问节点。仅当节点位于防火墙后时,激活此功能才是安全的。

--disable-usage-stats#

如果为真,使用统计收集将被禁用。

--log-style <log_style>#

如果为 ‘pretty’,则输出带有格式和颜色。如果为 ‘record’,则输出记录样式而不带格式。’auto’ 默认值为 ‘pretty’,如果标准输入 不是 TTY,则禁用漂亮的日志记录。

选项:

自动 | 记录 | 漂亮

--log-color <log_color>#

使用彩色日志记录。如果标准输出是TTY,则自动启用彩色日志记录。

选项:

自动 | 否 | 是

-v, --verbose#

ray stop#

在本地机器上手动停止 Ray 进程。

ray stop [OPTIONS]

选项

-f, --force#

如果设置,ray 将发送 SIGKILL 而不是 SIGTERM。

-g, --grace-period <grace_period>#

ray 等待进程正常终止的时间(以秒为单位)。如果在宽限期内进程未终止,宽限期后将强制终止。

--log-style <log_style>#

如果为 ‘pretty’,则输出带有格式和颜色。如果为 ‘record’,则输出记录样式而不带格式。’auto’ 默认值为 ‘pretty’,如果标准输入 不是 TTY,则禁用漂亮的日志记录。

选项:

自动 | 记录 | 漂亮

--log-color <log_color>#

使用彩色日志记录。如果标准输出是TTY,则自动启用彩色日志记录。

选项:

自动 | 否 | 是

-v, --verbose#

ray up#

创建或更新一个 Ray 集群。

ray up [OPTIONS] CLUSTER_CONFIG_FILE

选项

--min-workers <min_workers>#

覆盖集群配置的最小工作节点数。

--max-workers <max_workers>#

覆盖集群配置的最大工作节点数。

--no-restart#

是否在更新期间跳过重启 Ray 服务。这可以避免中断正在运行的作业。

--restart-only#

是否跳过运行设置命令并仅重启 Ray。这不能与 ‘no-restart’ 一起使用。

-y, --yes#

不要请求确认。

-n, --cluster-name <cluster_name>#

覆盖配置的集群名称。

--no-config-cache#

禁用本地集群配置缓存。

--redirect-command-output#

是否将命令输出重定向到文件。

--use-login-shells, --use-normal-shells#

Ray 默认使用登录 shell (bash –login -i) 来运行集群命令。如果你的工作流程与普通 shell 兼容,可以禁用此功能以获得更好的用户体验。

--disable-usage-stats#

如果为真,使用统计收集将被禁用。

--log-style <log_style>#

如果为 ‘pretty’,则输出带有格式和颜色。如果为 ‘record’,则输出记录样式而不带格式。’auto’ 默认值为 ‘pretty’,如果标准输入 不是 TTY,则禁用漂亮的日志记录。

选项:

自动 | 记录 | 漂亮

--log-color <log_color>#

使用彩色日志记录。如果标准输出是TTY,则自动启用彩色日志记录。

选项:

自动 | 否 | 是

-v, --verbose#

参数

CLUSTER_CONFIG_FILE#

必需参数

ray down#

拆卸一个 Ray 集群。

ray down [OPTIONS] CLUSTER_CONFIG_FILE

选项

-y, --yes#

不要请求确认。

--workers-only#

只销毁工人。

-n, --cluster-name <cluster_name>#

覆盖配置的集群名称。

--keep-min-workers#

保留配置中指定的最少工作线程数。

--log-style <log_style>#

如果为 ‘pretty’,则输出带有格式和颜色。如果为 ‘record’,则输出记录样式而不带格式。’auto’ 默认值为 ‘pretty’,如果标准输入 不是 TTY,则禁用漂亮的日志记录。

选项:

自动 | 记录 | 漂亮

--log-color <log_color>#

使用彩色日志记录。如果标准输出是TTY,则自动启用彩色日志记录。

选项:

自动 | 否 | 是

-v, --verbose#

参数

CLUSTER_CONFIG_FILE#

必需参数

ray exec#

在 Ray 集群上通过 SSH 执行命令。

ray exec [OPTIONS] CLUSTER_CONFIG_FILE CMD

选项

--run-env <run_env>#

选择是否在容器中执行此命令,或直接在集群头节点上执行。仅在YAML中配置了docker时适用。

选项:

auto | host | docker

--stop#

在命令运行完成后停止集群。

--start#

如果需要,启动集群。

--screen#

在屏幕中运行命令。

--tmux#

在 tmux 中运行命令。

-n, --cluster-name <cluster_name>#

覆盖配置的集群名称。

--no-config-cache#

禁用本地集群配置缓存。

-p, --port-forward <port_forward>#

要转发的端口。多次使用此选项以转发多个端口。

--disable-usage-stats#

如果为真,使用统计收集将被禁用。

--log-style <log_style>#

如果为 ‘pretty’,则输出带有格式和颜色。如果为 ‘record’,则输出记录样式而不带格式。’auto’ 默认值为 ‘pretty’,如果标准输入 不是 TTY,则禁用漂亮的日志记录。

选项:

自动 | 记录 | 漂亮

--log-color <log_color>#

使用彩色日志记录。如果标准输出是TTY,则自动启用彩色日志记录。

选项:

自动 | 否 | 是

-v, --verbose#

参数

CLUSTER_CONFIG_FILE#

必需参数

CMD#

必需参数

ray submit#

在指定集群上上传并运行脚本。

脚本会自动同步到以下位置:

os.path.join(“~”, os.path.basename(script))

示例:

ray submit [CLUSTER.YAML] experiment.py – –smoke-test

ray submit [OPTIONS] CLUSTER_CONFIG_FILE SCRIPT [SCRIPT_ARGS]...

选项

--stop#

在命令运行完成后停止集群。

--start#

如果需要,启动集群。

--screen#

在屏幕中运行命令。

--tmux#

在 tmux 中运行命令。

-n, --cluster-name <cluster_name>#

覆盖配置的集群名称。

--no-config-cache#

禁用本地集群配置缓存。

-p, --port-forward <port_forward>#

要转发的端口。多次使用此选项以转发多个端口。

--args <args>#

(已弃用) 使用 ‘– –arg1 –arg2’ 作为脚本参数。

--disable-usage-stats#

如果为真,使用统计收集将被禁用。

--extra-screen-args <extra_screen_args>#

如果启用了屏幕,则将提供的参数添加到其中。一个有用的示例使用场景是传递 –extra-screen-args=’-Logfile /full/path/blah_log.txt’,因为它还将屏幕输出重定向到自定义文件。

--log-style <log_style>#

如果为 ‘pretty’,则输出带有格式和颜色。如果为 ‘record’,则输出记录样式而不带格式。’auto’ 默认值为 ‘pretty’,如果标准输入 不是 TTY,则禁用漂亮的日志记录。

选项:

自动 | 记录 | 漂亮

--log-color <log_color>#

使用彩色日志记录。如果标准输出是TTY,则自动启用彩色日志记录。

选项:

自动 | 否 | 是

-v, --verbose#

参数

CLUSTER_CONFIG_FILE#

必需参数

SCRIPT#

必需参数

SCRIPT_ARGS#

可选参数

ray attach#

创建或附加到Ray集群的SSH会话。

ray attach [OPTIONS] CLUSTER_CONFIG_FILE

选项

--start#

如果需要,启动集群。

--screen#

在屏幕中运行命令。

--tmux#

在 tmux 中运行命令。

-n, --cluster-name <cluster_name>#

覆盖配置的集群名称。

--no-config-cache#

禁用本地集群配置缓存。

-N, --new#

强制创建新屏幕。

-p, --port-forward <port_forward>#

要转发的端口。多次使用此选项以转发多个端口。

--log-style <log_style>#

如果为 ‘pretty’,则输出带有格式和颜色。如果为 ‘record’,则输出记录样式而不带格式。’auto’ 默认值为 ‘pretty’,如果标准输入 不是 TTY,则禁用漂亮的日志记录。

选项:

自动 | 记录 | 漂亮

--log-color <log_color>#

使用彩色日志记录。如果标准输出是TTY,则自动启用彩色日志记录。

选项:

自动 | 否 | 是

-v, --verbose#

参数

CLUSTER_CONFIG_FILE#

必需参数

ray get_head_ip#

返回 Ray 集群的头节点 IP。

ray get_head_ip [OPTIONS] CLUSTER_CONFIG_FILE

选项

-n, --cluster-name <cluster_name>#

覆盖配置的集群名称。

参数

CLUSTER_CONFIG_FILE#

必需参数

ray monitor#

跟踪 Ray 集群的自动缩放器日志。

ray monitor [OPTIONS] CLUSTER_CONFIG_FILE

选项

--lines <lines>#

要显示的末尾行数。

-n, --cluster-name <cluster_name>#

覆盖配置的集群名称。

--log-style <log_style>#

如果为 ‘pretty’,则输出带有格式和颜色。如果为 ‘record’,则输出记录样式而不带格式。’auto’ 默认值为 ‘pretty’,如果标准输入 不是 TTY,则禁用漂亮的日志记录。

选项:

自动 | 记录 | 漂亮

--log-color <log_color>#

使用彩色日志记录。如果标准输出是TTY,则自动启用彩色日志记录。

选项:

自动 | 否 | 是

-v, --verbose#

参数

CLUSTER_CONFIG_FILE#

必需参数