ray.rllib.algorithms.algorithm.Algorithm.导出策略检查点#

Algorithm.export_policy_checkpoint(export_dir: str, policy_id: str = 'default_policy') → None[源代码]#

将导出策略检查点保存到本地目录并返回一个 AIR 检查点。

参数:

export_dir – 可写的本地目录，用于存储 AIR 检查点信息。
policy_id – 可选的策略ID以导出。如果未提供，将导出“default_policy”。如果 policy_id 不在此算法中存在，将引发 KeyError。

抛出:

KeyError – 如果在此算法中找不到 policy_id。

from ray.rllib.algorithms.ppo import PPO, PPOConfig
config = PPOConfig().environment("CartPole-v1")
algo = PPO(config=config)
algo.train()
algo.export_policy_checkpoint("/tmp/export_dir")