Skip to main content

编排仪表板

Enterprise Feature

此功能在ClearML企业版计划下可用。

使用编排仪表板来监控所有可用和正在使用的计算资源:

  • 全球可用和已利用资源的总量及按类别划分
  • 随时间变化的资源利用率
  • Resource History Event Log
  • Detailed resource performance metrics

编排仪表板

资源类别和组

编排仪表板按组和类别显示您的工作者,由以下命名策略指定:::

当未指定类别时,工作人员将被分配到DEFAULT类别。

当未指定组时,工作人员将被分配到Default Group组。

当前使用数据

仪表板的顶部显示当前资源的可用性和使用情况计数。这为您提供了可用和使用中的资源的整体概览。总计部分显示可用和空闲资源的计数。这些计数也可按每个工作类别查看。

总计部分显示:

  • GPU - 当前运行的工作节点中的GPU总数与所有已配置工作节点中的GPU总数的比例,以及空闲GPU的数量。当GPU的平均利用率低于80%时,被视为空闲。
  • CPU - 当前运行的工作节点中的CPU总数与所有配置的工作节点中的CPU总数的比例,以及空闲CPU的数量。当CPU的平均利用率低于30%时,被视为空闲。
  • 工作者 - 当前正在运行的工作者数量与总配置的工作者数量(通过自动扩展器或K8S)之比,以及空闲工作者的数量。如果所有GPU和CPU都空闲或没有执行任何任务,则工作者被视为空闲。

类别部分显示以下资源的计数和利用率:

  • 工人
  • 图形处理器
  • Central Processing Unit

将鼠标悬停在此数据的任何部分上,以查看当前空闲机器的数量。

使用事件日志查看工作事件的更新:工作者的添加/移除,工作者变为空闲/忙碌。悬停在日志上以下载(Download)或打开扩展视图(Maximize)。

资源图

资源图显示资源随时间的使用情况。可以通过图表上方的下拉菜单控制图表的时间跨度(介于3小时到1个月之间)。将鼠标悬停在图表上以查看特定数据点的值。

点击图表下方的资源组列表中的一个组,图表将显示该特定组的使用情况。

在查看一个组的使用情况时,您可以在图表顶部的下拉菜单中选择要查看的数据:

  • 计算单元 - 可用/空闲的CPU/GPU
  • 计算利用率 - 平均 CPU/GPU 利用率
  • 可用内存 - 总内存和空闲内存
  • 免费家庭存储
  • 网络吞吐量 - 接收/发送

资源组

资源组 表显示了每个组的当前使用情况:

  • 工作线程数 - 组中的工作线程数量
  • Average GPU Utilization (%)
  • Average CPU Load (%)
  • Available (Total) Memory (GB)
  • 可用内存 (GB)
  • 免费家庭磁盘 (GB)
  • 网络 (发送/接收 Mbps)

点击 Expand 展开资源组并查看组内每个工作者的统计信息。可以通过点击列上的 Filter 来应用过滤器,相关的过滤器将显示出来。要清除所有活动的过滤器,请点击 Clear filters

悬停在一个工作人员上并点击 Dot menu 以访问该工作人员的信息面板。

该表突出显示了超过用户配置阈值的值。

资源组

点击 Tune 来定义阈值。

info

应用于仪表板表的阈值会影响查看页面的所有工作区用户

阈值模态

点击资源组将打开该组的信息面板,并用该资源的使用历史替换概览图表。

资源组信息面板

信息面板显示组的:

  • Total number of GPUs
  • Total CPU Count
  • Total Working Memory
  • Total GPU Memory
  • Total idle time in the past 30 days