ray.rllib.utils.policy.为框架创建策略#

ray.rllib.utils.policy.create_policy_for_framework(policy_id: str, policy_class: Type[Policy], merged_config: dict, observation_space: gymnasium.Space, action_space: gymnasium.Space, worker_index: int = 0, session_creator: Callable[[], tf1.Session] | None = None, seed: int | None = None)[源代码]#

特定框架的策略创建逻辑。

参数:
  • policy_id – 策略 ID。

  • policy_class – 策略类类型。

  • merged_config – 完整的策略配置。

  • observation_space – env 的观察空间

  • action_space – 环境的行为空间。

  • worker_index – 持有此策略的工作者索引。默认值是 0。

  • session_creator – 一个可选的 tf1.Session 创建可调用对象。

  • seed – 可选的随机种子。