ray.rllib.policy.torch_policy_v2.TorchPolicyV2.from_checkpoint#

static TorchPolicyV2.from_checkpoint(checkpoint: str | Checkpoint, policy_ids: Collection[str] | None = None) → Policy | Dict[str, Policy]#

从给定的策略或算法检查点创建新的策略实例。

注意：此方法必须从 2.1.0 开始保持向后兼容，关于使用 Ray 2.0.0 或更高版本创建的检查点。

参数:

checkpoint – 路径（str）到一个策略或算法检查点目录，或一个要从其恢复的 AIR 检查点（策略或算法）实例。如果检查点是策略检查点，policy_ids 必须为 None，并且只会恢复并返回该检查点中的策略。如果检查点是算法检查点且 policy_ids 为 None，将返回检查点中找到的所有策略对象列表，否则将返回 policy_ids 中的那些策略列表。
policy_ids – 要从给定的算法检查点中提取的策略ID列表。如果为None且提供了算法检查点，将恢复该检查点中找到的所有策略。如果提供了策略检查点，此参数必须为None。

返回:

如果 checkpoint 是一个策略检查点，则返回一个实例化的策略。如果 checkpoint 是一个算法检查点，则返回一个从策略ID到策略的字典。在后一种情况下，如果 policy_ids 为 None，则返回算法中的所有策略，否则返回仅包含 policy_ids 中策略的字典。