Skip to main content

资源配置

管理员可以定义资源策略来实现不同用户组的资源配额和预留,以优先使用可用资源的工作负载。

资源配置部分,管理员定义可用资源以及它们将如何分配给不同的工作负载。

资源配置页面

资源配置设置页面显示当前已配置的资源: 定义的资源池、资源配置文件以及资源分配架构。

资源池

资源池是可供使用的资源的集合,例如Kubernetes集群或GPU超级节点。 管理员指定每个池中可用的资源总数。资源策略管理器确保 工作负载分配不超过可用资源数量。

管理员控制池中跨资源配置文件的执行优先级(例如,如果配置文件A的作业和配置文件B的作业当前需要在池中运行,则首先为配置文件A的作业分配资源,反之亦然)。

资源池卡片显示在资源配置设置页面的顶部。每张卡片显示以下信息:

资源池卡片

  • Pool Name
  • 当前使用的资源数量与总可用资源数量的比例
  • 执行优先级 - 按执行优先级顺序排列的链接配置文件列表。

资源配置文件

资源配置文件代表作业的资源消耗需求,例如所需的GPU数量。它们是管理员用来根据用户的作业资源需求,通过资源策略为用户提供访问可用资源池的接口。

管理员可以控制配置文件中的资源池分配优先级(例如,如果pool A当前无法满足配置文件的资源需求,则仅在pool B上运行作业)。

管理员可以控制在使用资源策略的配置文件中的排队优先级(例如,如果研发团队和DevOps团队都有待处理的任务 - 先运行研发团队的任务,反之亦然)。

资源配置文件卡片显示在资源配置设置页面的底部。每张卡片显示以下信息:

资源配置文件卡片

  • Configuration file name
  • Number of resources - 分配给此配置文件中作业的资源数量
  • pool links的列表
  • Queued jobs - 当前待处理任务的数量
  • Running jobs - 当前正在运行的作业数量
  • 资源策略的数量。点击以打开资源策略列表并排序排队优先级。

示例工作流程

您的GPU分布在本地H100和额外的裸金属服务器上,以及在AWS上(由自动扩展器管理)。假设目前大部分资源已经分配给作业,只有16个资源可用:8个在H100资源池中,8个在裸金属池中:

示例资源池

团队的工作有不同的资源需求,分别为0.5、2、4和8个GPU。资源配置文件被定义以反映这些需求:

示例资源配置文件

不同的作业将通过将配置文件连接到资源池来路由到不同的资源池。通过配置文件排队的作业将按照其优先级顺序在资源可用的池中运行。例如,H100池将按照以下优先级运行作业:首先是2 GPU的作业,然后是4 GPU的作业,接着是8 GPU的作业,最后是0.5 GPU的作业。

示例配置文件优先级

资源策略为两个团队实施:

  • Development Team
  • 研究团队

每个团队都配置了一个资源策略,其中包含8个保留资源和16个资源限制。两个团队都使用了4xGPU配置文件(即通过此配置文件运行的每个作业需要4个资源)。

示例资源策略

开发团队优先于研究团队,通过将其置于资源配置文件的策略优先级列表中的更高位置:

示例资源策略优先级

开发团队和研究团队各自排队了四个4资源的任务:开发团队的任务将首先分配资源。4xGPU资源配置文件连接到两个资源池:Bare Metal Low END GPUs(带有4 GPU Low End链接)和H100 Half a Superpod(带有4 GPU H100 link)。

示例资源配置文件池连接

资源首先从Bare Metal池中分配(优先级设置在资源配置文件卡上):

示例资源池优先级

如果第一个池当前无法满足配置文件的资源需求,资源将从下一个列出的池中分配。让我们看看下图中的第一个池。请注意,该池有8个可用资源,因此它可以运行两个4资源的作业。

示例资源池卡片

由于裸金属池没有更多可用资源,额外的作业将从资源配置文件连接的下一个池中分配资源。H100池有8个可用资源。开发团队仍有2个作业待处理,总共需要8个资源,研究团队有4个作业,总共需要16个资源。为了尊重研究团队的资源预留,其前两个作业将从H100池中分配所需的8个资源。

所有可用资源已被分配 - 每个团队的2个任务将保持挂起状态,直到当前正在运行的某些任务完成并且资源变得可用。

应用资源配置

管理员可以全局激活/停用资源策略管理。要启用当前配置的设置,请点击启用资源管理切换按钮。启用资源管理将根据配置的资源配置文件和池分配来服务策略队列。停用资源管理将停止服务策略队列。这些队列上的任务将保持挂起状态,直到资源策略管理重新启用。

管理员可以在资源配置设置页面中添加、编辑、删除和连接资源池和配置文件。

要对资源配置进行任何更改(创建、删除或修改组件),请按照以下步骤操作:

  1. 点击Open Editor进入编辑模式
  2. 在进行所需的更改后,您有以下选项:
    • 保存 - 保存您所做的更改。这些更改在您点击配置之前不会生效
    • 配置 - 应用资源策略的已保存更改
    • 重置配置 - 将编辑器设置为当前配置的值。这将删除任何未配置的更改(包括已保存和未保存的更改)
  3. 点击退出以离开编辑模式。页面将显示已配置的设置。未配置的已保存更改仍将在编辑模式下可用。

资源池

创建资源池:

  1. 点击 + 添加池
  2. 创建池模态框中,输入:
    • Name - The name of the resource pool. This will be displayed on the pool information card in the resource configuration settings page.
    • 资源数量 - 此池中可用的资源数量
    • 描述 - 可选的自由格式文本,用于提供额外的描述信息
  3. 点击 创建

修改资源池

  1. 点击相关资源池卡片上的Menu > 点击编辑
  2. 编辑池模态框中,更改池的名称、资源数量或描述
  3. 点击保存

您还可以更改链接的资源配置文件的执行优先级。点击并拖动配置文件连接锚点资源锚点以更改其在优先级顺序中的位置。

资源配置文件

创建资源配置文件:

  1. 点击 + 添加配置文件
  2. 创建配置文件模态框中,输入:
    • Name - The name of the resource configuration file. This will be displayed on the profile information card in the resource configuration settings page.
    • 资源分配 - 分配给在此配置文件中运行的每个作业的资源数量
  3. 点击 创建

修改资源配置文件:

  1. 点击相关资源配置文件卡片上的Menu > 点击编辑
  2. 编辑个人资料模态框中,更改池的名称、资源数量或描述
  3. 点击保存

要控制哪个池的资源将首先分配,请点击并拖动池连接锚点 connection anchor 以更改其在优先级顺序中的位置。

您还可以更改使用此配置文件的资源策略的执行优先级。打开策略列表,然后点击策略锚点 policy anchor 并拖动策略以更改其在优先级顺序中的位置。

删除资源配置文件:

  1. 点击相关资源池卡片上的Menu
  2. 点击删除

将配置文件连接到池

将资源配置文件连接到资源池,以允许分配给该配置文件的作业使用池中的资源。

将配置文件连接到池:

  1. 点击 打开编辑器
  2. 将相关配置文件的Profile-pool link拖动到您想要连接配置文件的资源池。这将打开连接配置文件模态窗口
  3. 连接配置文件模态框中,输入此连接的名称。此连接名称将显示在配置文件卡片上

设置页面将显示一条链接配置文件和池卡片的线。链接的配置文件会显示在池卡片上,显示其在执行顺序中的位置。要更改配置文件的优先级位置,请将其连接锚点connection anchor拖动到新位置。

从池中断开配置文件的连接:

  1. 点击 打开编辑器
  2. 在相关的个人资料卡片上,将鼠标悬停在连接名称上并点击 X

分配给此资源配置文件的任务将不再能够使用池的资源。