编排仪表板
Enterprise Feature
此功能在ClearML企业版计划下可用。
使用编排仪表板来监控所有可用和正在使用的计算资源:
- 全球可用和已利用资源的总量及按类别划分
- 随时间变化的资源利用率
- Resource History Event Log
- Detailed resource performance metrics
资源类别和组
编排仪表板按组和类别显示您的工作者,由以下命名策略指定:
。
当未指定类别时,工作人员将被分配到DEFAULT
类别。
当未指定组时,工作人员将被分配到Default Group
组。
当前使用数据
仪表板的顶部显示当前资源的可用性和使用情况计数。这为您提供了可用和使用中的资源的整体概览。总计部分显示可用和空闲资源的计数。这些计数也可按每个工作类别查看。
总计部分显示:
- GPU - 当前运行的工作节点中的GPU总数与所有已配置工作节点中的GPU总数的比例,以及空闲GPU的数量。当GPU的平均利用率低于80%时,被视为空闲。
- CPU - 当前运行的工作节点中的CPU总数与所有配置的工作节点中的CPU总数的比例,以及空闲CPU的数量。当CPU的平均利用率低于30%时,被视为空闲。
- 工作者 - 当前正在运行的工作者数量与总配置的工作者数量(通过自动扩展器或K8S)之比,以及空闲工作者的数量。如果所有GPU和CPU都空闲或没有执行任何任务,则工作者被视为空闲。
类别部分显示以下资源的计数和利用率:
- 工人
- 图形处理器
- Central Processing Unit
将鼠标悬停在此数据的任何部分上,以查看当前空闲机器的数量。
使用事件日志查看工作事件的更新:工作者的添加/移除,工作者变为空闲/忙碌。悬停在日志上以下载()或打开扩展视图()。
资源图
资源图显示资源随时间的使用情况。可以通过图表上方的下拉菜单控制图表的时间跨度(介于3小时到1个月之间)。将鼠标悬停在图表上以查看特定数据点的值。
点击图表下方的资源组列表中的一个组,图表将显示该特定组的使用情况。
在查看一个组的使用情况时,您可以在图表顶部的下拉菜单中选择要查看的数据:
- 计算单元 - 可用/空闲的CPU/GPU
- 计算利用率 - 平均 CPU/GPU 利用率
- 可用内存 - 总内存和空闲内存
- 免费家庭存储
- 网络吞吐量 - 接收/发送
资源组
资源组 表显示了每个组的当前使用情况:
- 工作线程数 - 组中的工作线程数量
- Average GPU Utilization (%)
- Average CPU Load (%)
- Available (Total) Memory (GB)
- 可用内存 (GB)
- 免费家庭磁盘 (GB)
- 网络 (发送/接收 Mbps)
点击 展开资源组并查看组内每个工作者的统计信息。可以通过点击列上的 来应用过滤器,相关的过滤器将显示出来。要清除所有活动的过滤器,请点击 。
悬停在一个工作人员上并点击 以访问该工作人员的信息面板。
该表突出显示了超过用户配置阈值的值。
点击 来定义阈值。
info
应用于仪表板表的阈值会影响查看页面的所有工作区用户
点击资源组将打开该组的信息面板,并用该资源的使用历史替换概览图表。
信息面板显示组的:
- Total number of GPUs
- Total CPU Count
- Total Working Memory
- Total GPU Memory
- Total idle time in the past 30 days