ray.rllib.policy.Policy.from_checkpoint#

static Policy.from_checkpoint(checkpoint: str | Checkpoint, policy_ids: Collection[str] | None = None) Policy | Dict[str, Policy][源代码]#

从给定的策略或算法检查点创建新的策略实例。

注意:此方法必须从 2.1.0 开始保持向后兼容,关于使用 Ray 2.0.0 或更高版本创建的检查点。

参数:
  • checkpoint – 路径(str)到一个策略或算法检查点目录,或一个要从其恢复的 AIR 检查点(策略或算法)实例。如果检查点是策略检查点,policy_ids 必须为 None,并且只会恢复并返回该检查点中的策略。如果检查点是算法检查点且 policy_ids 为 None,将返回检查点中找到的所有策略对象列表,否则将返回 policy_ids 中的那些策略列表。

  • policy_ids – 要从给定的算法检查点中提取的策略ID列表。如果为None且提供了算法检查点,将恢复该检查点中找到的所有策略。如果提供了策略检查点,此参数必须为None。

返回:

如果 checkpoint 是一个策略检查点,则返回一个实例化的策略。如果 checkpoint 是一个算法检查点,则返回一个从策略ID到策略的字典。在后一种情况下,如果 policy_ids 为 None,则返回算法中的所有策略,否则返回仅包含 policy_ids 中策略的字典。