版本 1.14
ClearML 1.14.4
错误修复
- 修复 AWS S3 配置中
secure
属性未在StorageHelper
中转发的问题 (ClearML GitHub PR #1205) - 修复
NVIDIA_VISIBLE_DEVICES=all
环境变量值会导致没有GPU指标被报告的问题 - 修复当存在带有
secure=false
的AWS S3配置部分时,设置output_uri
会引发错误的问题 - 修复
CacheManager
在未达到文件限制时尝试清除缓存,导致不必要的缓慢检查
ClearML 1.14.3
新功能和错误修复
- 为pickle文件添加哈希检查(解决CVE-2024-24590)
- 修复当提供
--cwd
、--folder
和--script
时,clearml-task
相对路径计算的问题(ClearML GitHub issue #1160) - 修复了在AWS S3存储桶设置中提供
secure
时导致错误的回归问题
ClearML 1.14.2
新功能和改进
- 如果安装了
tqdm
,则报告上传/下载 - 添加对
PipelineController.version
属性的支持 - 添加支持在提供存储桶凭据时指定AWS配置文件
- 添加一个
ignore_remote_overrides
参数到Task.connect()
和Task.connect_configuration()
,允许用户在远程运行时禁用覆盖值 - 添加支持使用
CLEARML_API_HOST_VERIFY_CERT
环境变量设置自定义证书路径 (而不仅仅是允许用户禁用验证) - 添加数据集报告示例 (ClearML GitHub PR #1180)
错误修复
- 修复了在多个步骤调用中缺失的组件回调 (ClearML GitHub PR #1195)
- 修复了
tempfile.mktemp
的不安全使用 - 修复文件下载时可能存在的路径遍历问题 (CVE-2024-24591)
- 通过不使用
distutils
来修复Python 3.12的支持 - 修复
TaskScheduler
在远程运行之前未保存本地状态的问题 - 修复当
PipelineController.abort_on_failure
设置为False
且某个步骤已被中止时,管道应继续而不是中止的问题 - 修复当使用
continue_last_task=True
初始化其对应任务时HPO崩溃的问题
ClearML 1.14.1
错误修复
- 修复创建的管道未出现在UI管道部分的问题
ClearML 1.14.0
新功能和改进
- 添加对装饰管道步骤的支持 (ClearML GitHub 问题 #1154)
- 改进
torch.distributed
行为并自动检测 Huggingface 加速分布式执行 - 改进
jsonargparse
集成:添加了allow_config_file_override_from_ui
参数,用于启用/禁用覆盖配置文件条目 - 添加
raise_on_error
参数到Model.update_weights()
和Model.update_weights_package()
- 通过为HyperParameterOptimizer类指定多个优化目标,添加HPO多目标优化支持
- 改进来自函数的管道:管道步骤使用的库不再需要在步骤本身中导入,而是可以全局导入
- 支持在
Task.set_repo()
中清除仓库详细信息 - 自动检测
tensorflow-intel
为tensorflow
- 添加对自动检测
torch
和transformersaccelerate
分布式执行的支持 - 添加表格数据多阶段管道处理示例
错误修复
- 修复
langchain
集成 (ClearML GitHub issues #1124 和 ClearML GitHub issue #1126) - 修复了在使用
target_project
与TaskScheduler.add_task()
时,如果与管道一起使用会导致项目损坏的问题(ClearML GitHub issue #1137) - 修复
PipelineController.add_function_step()
在添加自定义装饰步骤时失败的问题 (ClearML GitHub 问题 #1154) - 修复
jsonargparse
绑定在调用Task.init()
之前未捕获参数的问题 (ClearML GitHub issue #1164) - 修复应删除无效的
jsonargparse
参数 - 修复对附加参数到Hydra默认列表的处理
- 修复
Task.set_repo()
和Task.set_packages()
不等待自动异步仓库检测的问题 - 修复资源监视器中的活动GPU过滤功能,以支持GPU ID而不仅仅是GPU索引
- 修复了在没有配置文件或使用无效配置文件时使用SDK引发的误导性错误
- 通过改进退出和异常处理程序,修复了进程有时挂起的问题,除了
BackgroundMonitor
之外,在子进程中取消注册信号处理