集群管理 CLI#
本节包含用于管理 Ray 集群的命令。
ray start#
在本地机器上手动启动 Ray 进程。
ray start [OPTIONS]
选项
- --node-ip-address <node_ip_address>#
此节点的IP地址
- --address <address>#
用于 Ray 的地址
- --port <port>#
头部光线处理的端口。如果未提供,默认为6379;如果端口设置为0,我们将分配一个可用端口。
- --object-manager-port <object_manager_port>#
用于启动对象管理器的端口
- --node-manager-port <node_manager_port>#
用于启动节点管理器的端口
- --gcs-server-port <gcs_server_port>#
GCS 服务器的端口号。
- --min-worker-port <min_worker_port>#
工作者将绑定的最低端口号。如果未设置,将选择随机端口。
- --max-worker-port <max_worker_port>#
工作进程将绑定的最高端口号。如果设置,则必须同时设置 ‘–min-worker-port’。
- --worker-port-list <worker_port_list>#
一个逗号分隔的开放端口列表,供工作进程绑定。覆盖 ‘–min-worker-port’ 和 ‘–max-worker-port’。
- --ray-client-server-port <ray_client_server_port>#
ray 客户端服务器绑定的端口号,默认为 10001,如果未安装 ray[client] 则为 None。
- --object-store-memory <object_store_memory>#
对象存储启动时使用的内存量(以字节为单位)。默认情况下,这是可用系统内存的30%(ray_constants.DEFAULT_OBJECT_STORE_MEMORY_PROPORTION),上限为shm大小和200G(ray_constants.DEFAULT_OBJECT_STORE_MAX_MEMORY_BYTES),但可以设置得更高。
- --num-cpus <num_cpus>#
此节点上的CPU数量
- --num-gpus <num_gpus>#
此节点上的GPU数量
- --resources <resources>#
一个将资源名称映射到资源数量的JSON序列化字典。
- --head#
为头节点提供此参数
- --include-dashboard <include_dashboard>#
提供此参数以启动 Ray 仪表板 GUI
- --dashboard-host <dashboard_host>#
绑定仪表板服务器的主机,可以是 localhost (127.0.0.1) 或 0.0.0.0(所有接口都可用)。默认情况下,这是 127.0.0.1。
- --dashboard-port <dashboard_port>#
绑定仪表板服务器的端口——默认为 8265
- --dashboard-agent-listen-port <dashboard_agent_listen_port>#
仪表板代理监听http的端口。
- --dashboard-agent-grpc-port <dashboard_agent_grpc_port>#
仪表板代理监听grpc的端口。
- --dashboard-grpc-port <dashboard_grpc_port>#
仪表板头监听grpc的端口。
- --runtime-env-agent-port <runtime_env_agent_port>#
运行时环境代理监听http的端口。
- --block#
在此命令中提供此参数以永久阻塞
- --plasma-directory <plasma_directory>#
内存映射文件的对象存储目录
- --autoscaling-config <autoscaling_config>#
包含自动扩展配置的文件
- --no-redirect-output#
不要将非工作者的标准输出和标准错误重定向到文件
- --plasma-store-socket-name <plasma_store_socket_name>#
手动指定plasma存储的套接字名称
- --raylet-socket-name <raylet_socket_name>#
手动指定 raylet 进程的套接字路径
- --temp-dir <temp_dir>#
手动指定 Ray 进程的根临时目录,仅在指定 –head 时有效
- --storage <storage>#
集群的持久存储URI。实验性功能。
- --metrics-export-port <metrics_export_port>#
用于通过 Prometheus 端点暴露 Ray 指标的端口。
- --ray-debugger-external#
使 Ray 调试器可在外部访问节点。仅当节点位于防火墙后时,激活此功能才是安全的。
- --disable-usage-stats#
如果为真,使用统计收集将被禁用。
- --log-style <log_style>#
如果为 ‘pretty’,则输出带有格式和颜色。如果为 ‘record’,则输出记录样式而不带格式。’auto’ 默认值为 ‘pretty’,如果标准输入 不是 TTY,则禁用漂亮的日志记录。
- 选项:
自动 | 记录 | 漂亮
- --log-color <log_color>#
使用彩色日志记录。如果标准输出是TTY,则自动启用彩色日志记录。
- 选项:
自动 | 否 | 是
- -v, --verbose#
ray stop#
在本地机器上手动停止 Ray 进程。
ray stop [OPTIONS]
选项
- -f, --force#
如果设置,ray 将发送 SIGKILL 而不是 SIGTERM。
- -g, --grace-period <grace_period>#
ray 等待进程正常终止的时间(以秒为单位)。如果在宽限期内进程未终止,宽限期后将强制终止。
- --log-style <log_style>#
如果为 ‘pretty’,则输出带有格式和颜色。如果为 ‘record’,则输出记录样式而不带格式。’auto’ 默认值为 ‘pretty’,如果标准输入 不是 TTY,则禁用漂亮的日志记录。
- 选项:
自动 | 记录 | 漂亮
- --log-color <log_color>#
使用彩色日志记录。如果标准输出是TTY,则自动启用彩色日志记录。
- 选项:
自动 | 否 | 是
- -v, --verbose#
ray up#
创建或更新一个 Ray 集群。
ray up [OPTIONS] CLUSTER_CONFIG_FILE
选项
- --min-workers <min_workers>#
覆盖集群配置的最小工作节点数。
- --max-workers <max_workers>#
覆盖集群配置的最大工作节点数。
- --no-restart#
是否在更新期间跳过重启 Ray 服务。这可以避免中断正在运行的作业。
- --restart-only#
是否跳过运行设置命令并仅重启 Ray。这不能与 ‘no-restart’ 一起使用。
- -y, --yes#
不要请求确认。
- -n, --cluster-name <cluster_name>#
覆盖配置的集群名称。
- --no-config-cache#
禁用本地集群配置缓存。
- --redirect-command-output#
是否将命令输出重定向到文件。
- --use-login-shells, --use-normal-shells#
Ray 默认使用登录 shell (bash –login -i) 来运行集群命令。如果你的工作流程与普通 shell 兼容,可以禁用此功能以获得更好的用户体验。
- --disable-usage-stats#
如果为真,使用统计收集将被禁用。
- --log-style <log_style>#
如果为 ‘pretty’,则输出带有格式和颜色。如果为 ‘record’,则输出记录样式而不带格式。’auto’ 默认值为 ‘pretty’,如果标准输入 不是 TTY,则禁用漂亮的日志记录。
- 选项:
自动 | 记录 | 漂亮
- --log-color <log_color>#
使用彩色日志记录。如果标准输出是TTY,则自动启用彩色日志记录。
- 选项:
自动 | 否 | 是
- -v, --verbose#
参数
- CLUSTER_CONFIG_FILE#
必需参数
ray down#
拆卸一个 Ray 集群。
ray down [OPTIONS] CLUSTER_CONFIG_FILE
选项
- -y, --yes#
不要请求确认。
- --workers-only#
只销毁工人。
- -n, --cluster-name <cluster_name>#
覆盖配置的集群名称。
- --keep-min-workers#
保留配置中指定的最少工作线程数。
- --log-style <log_style>#
如果为 ‘pretty’,则输出带有格式和颜色。如果为 ‘record’,则输出记录样式而不带格式。’auto’ 默认值为 ‘pretty’,如果标准输入 不是 TTY,则禁用漂亮的日志记录。
- 选项:
自动 | 记录 | 漂亮
- --log-color <log_color>#
使用彩色日志记录。如果标准输出是TTY,则自动启用彩色日志记录。
- 选项:
自动 | 否 | 是
- -v, --verbose#
参数
- CLUSTER_CONFIG_FILE#
必需参数
ray exec#
在 Ray 集群上通过 SSH 执行命令。
ray exec [OPTIONS] CLUSTER_CONFIG_FILE CMD
选项
- --run-env <run_env>#
选择是否在容器中执行此命令,或直接在集群头节点上执行。仅在YAML中配置了docker时适用。
- 选项:
auto | host | docker
- --stop#
在命令运行完成后停止集群。
- --start#
如果需要,启动集群。
- --screen#
在屏幕中运行命令。
- --tmux#
在 tmux 中运行命令。
- -n, --cluster-name <cluster_name>#
覆盖配置的集群名称。
- --no-config-cache#
禁用本地集群配置缓存。
- -p, --port-forward <port_forward>#
要转发的端口。多次使用此选项以转发多个端口。
- --disable-usage-stats#
如果为真,使用统计收集将被禁用。
- --log-style <log_style>#
如果为 ‘pretty’,则输出带有格式和颜色。如果为 ‘record’,则输出记录样式而不带格式。’auto’ 默认值为 ‘pretty’,如果标准输入 不是 TTY,则禁用漂亮的日志记录。
- 选项:
自动 | 记录 | 漂亮
- --log-color <log_color>#
使用彩色日志记录。如果标准输出是TTY,则自动启用彩色日志记录。
- 选项:
自动 | 否 | 是
- -v, --verbose#
参数
- CLUSTER_CONFIG_FILE#
必需参数
- CMD#
必需参数
ray submit#
在指定集群上上传并运行脚本。
脚本会自动同步到以下位置:
os.path.join(“~”, os.path.basename(script))
- 示例:
ray submit [CLUSTER.YAML] experiment.py – –smoke-test
ray submit [OPTIONS] CLUSTER_CONFIG_FILE SCRIPT [SCRIPT_ARGS]...
选项
- --stop#
在命令运行完成后停止集群。
- --start#
如果需要,启动集群。
- --screen#
在屏幕中运行命令。
- --tmux#
在 tmux 中运行命令。
- -n, --cluster-name <cluster_name>#
覆盖配置的集群名称。
- --no-config-cache#
禁用本地集群配置缓存。
- -p, --port-forward <port_forward>#
要转发的端口。多次使用此选项以转发多个端口。
- --args <args>#
(已弃用) 使用 ‘– –arg1 –arg2’ 作为脚本参数。
- --disable-usage-stats#
如果为真,使用统计收集将被禁用。
- --extra-screen-args <extra_screen_args>#
如果启用了屏幕,则将提供的参数添加到其中。一个有用的示例使用场景是传递 –extra-screen-args=’-Logfile /full/path/blah_log.txt’,因为它还将屏幕输出重定向到自定义文件。
- --log-style <log_style>#
如果为 ‘pretty’,则输出带有格式和颜色。如果为 ‘record’,则输出记录样式而不带格式。’auto’ 默认值为 ‘pretty’,如果标准输入 不是 TTY,则禁用漂亮的日志记录。
- 选项:
自动 | 记录 | 漂亮
- --log-color <log_color>#
使用彩色日志记录。如果标准输出是TTY,则自动启用彩色日志记录。
- 选项:
自动 | 否 | 是
- -v, --verbose#
参数
- CLUSTER_CONFIG_FILE#
必需参数
- SCRIPT#
必需参数
- SCRIPT_ARGS#
可选参数
ray attach#
创建或附加到Ray集群的SSH会话。
ray attach [OPTIONS] CLUSTER_CONFIG_FILE
选项
- --start#
如果需要,启动集群。
- --screen#
在屏幕中运行命令。
- --tmux#
在 tmux 中运行命令。
- -n, --cluster-name <cluster_name>#
覆盖配置的集群名称。
- --no-config-cache#
禁用本地集群配置缓存。
- -N, --new#
强制创建新屏幕。
- -p, --port-forward <port_forward>#
要转发的端口。多次使用此选项以转发多个端口。
- --log-style <log_style>#
如果为 ‘pretty’,则输出带有格式和颜色。如果为 ‘record’,则输出记录样式而不带格式。’auto’ 默认值为 ‘pretty’,如果标准输入 不是 TTY,则禁用漂亮的日志记录。
- 选项:
自动 | 记录 | 漂亮
- --log-color <log_color>#
使用彩色日志记录。如果标准输出是TTY,则自动启用彩色日志记录。
- 选项:
自动 | 否 | 是
- -v, --verbose#
参数
- CLUSTER_CONFIG_FILE#
必需参数
ray get_head_ip#
返回 Ray 集群的头节点 IP。
ray get_head_ip [OPTIONS] CLUSTER_CONFIG_FILE
选项
- -n, --cluster-name <cluster_name>#
覆盖配置的集群名称。
参数
- CLUSTER_CONFIG_FILE#
必需参数
ray monitor#
跟踪 Ray 集群的自动缩放器日志。
ray monitor [OPTIONS] CLUSTER_CONFIG_FILE
选项
- --lines <lines>#
要显示的末尾行数。
- -n, --cluster-name <cluster_name>#
覆盖配置的集群名称。
- --log-style <log_style>#
如果为 ‘pretty’,则输出带有格式和颜色。如果为 ‘record’,则输出记录样式而不带格式。’auto’ 默认值为 ‘pretty’,如果标准输入 不是 TTY,则禁用漂亮的日志记录。
- 选项:
自动 | 记录 | 漂亮
- --log-color <log_color>#
使用彩色日志记录。如果标准输出是TTY,则自动启用彩色日志记录。
- 选项:
自动 | 否 | 是
- -v, --verbose#
参数
- CLUSTER_CONFIG_FILE#
必需参数