Skip to main content

版本 0.15

important

Trains 现在是 ClearML

训练代理 0.15.1

功能

  • 添加Trains Agent守护进程和服务的Docker文件。

错误修复

训练代理 0.15.0

功能

  • 添加守护进程服务模式(daemon --services-mode),其中守护进程在其自己的Docker容器中启动任务,并验证启动和关闭。这允许在同一台机器上同时启动多个任务(目前仅在CPU模式下),每个任务服务将在任务的生命周期内将自己注册为工作器。
  • 增强 build --docker 模式:
    • 添加 --install-globally 选项以在 Docker 的系统 Python 中安装所需的包。
    • 添加 --entry-point option 选项以允许在运行 Docker 容器时自动克隆任务。
  • 支持使用agent.torch_nightly配置标志的PyTorch Nightly构建。如果为true,当找不到稳定的torch wheel时,代理会寻找nightly构建。
  • 为git用户/密码添加环境变量支持:
    • 使用 TRAINS_AGENT_GIT_USER / TRAINS_AGENT_GIT_PASS
    • 将git凭证传递给docker化的实验执行。
  • 支持从模块运行代码(即在执行入口点使用 -m)。
  • 添加 daemon --create-queue 以自动创建队列并使用它,如果服务器中不存在该队列名称。
  • --gpus--cpu-only移动到worker参数中(由daemonexecutebuild使用)。

错误修复

  • 修复初始化向导,正确显示输入服务器 (GitHub Issue #19).
  • 改进docker主机挂载支持,使用TRAINS_AGENT_DOCKER_HOST_MOUNT环境变量。
  • 支持在 pip freeze 中引用 pip v20.1 的本地/HTTP 包。
  • 修复分离模式以正确使用缓存文件夹插槽。
  • 修复 CUDA_VISIBLE_DEVICES 不应设置为 "all"。
  • 在使用--cpu-only运行时,不要监控GPU