版本 0.15
important
Trains 现在是 ClearML。
训练代理 0.15.1
功能
- 添加Trains Agent守护进程和服务的Docker文件。
错误修复
- 修复初始化向导(最多允许两次验证重试,然后打印错误)。
- 在没有检测到CUDA版本的情况下,在
--gpus
上添加警告(GitHub trains-agent 问题 24)。 - 添加
agent.force_git_ssh_protocol
配置选项,强制所有 Git 链接使用ssh://
(GitHub trains-agent 问题 16). - 将Git用户/密码权限添加到从Git仓库安装的pip包中(GitHub trains-agent 问题 22)。
训练代理 0.15.0
功能
- 添加守护进程服务模式(
daemon --services-mode
),其中守护进程在其自己的Docker容器中启动任务,并验证启动和关闭。这允许在同一台机器上同时启动多个任务(目前仅在CPU模式下),每个任务服务将在任务的生命周期内将自己注册为工作器。 - 增强
build --docker
模式:- 添加
--install-globally
选项以在 Docker 的系统 Python 中安装所需的包。 - 添加
--entry-point option
选项以允许在运行 Docker 容器时自动克隆任务。
- 添加
- 支持使用
agent.torch_nightly
配置标志的PyTorch Nightly构建。如果为true,当找不到稳定的torch wheel时,代理会寻找nightly构建。 - 为git用户/密码添加环境变量支持:
- 使用
TRAINS_AGENT_GIT_USER
/TRAINS_AGENT_GIT_PASS
。 - 将git凭证传递给docker化的实验执行。
- 使用
- 支持从模块运行代码(即在执行入口点使用 -m)。
- 添加
daemon --create-queue
以自动创建队列并使用它,如果服务器中不存在该队列名称。 - 将
--gpus
和--cpu-only
移动到worker参数中(由daemon
、execute
和build
使用)。
错误修复
- 修复初始化向导,正确显示输入服务器 (GitHub Issue #19).
- 改进docker主机挂载支持,使用
TRAINS_AGENT_DOCKER_HOST_MOUNT
环境变量。 - 支持在 pip freeze 中引用 pip v20.1 的本地/HTTP 包。
- 修复分离模式以正确使用缓存文件夹插槽。
- 修复
CUDA_VISIBLE_DEVICES
不应设置为 "all"。 - 在使用
--cpu-only
运行时,不要监控GPU