ray.rllib.utils.policy.为框架创建策略#
- ray.rllib.utils.policy.create_policy_for_framework(policy_id: str, policy_class: Type[Policy], merged_config: dict, observation_space: gymnasium.Space, action_space: gymnasium.Space, worker_index: int = 0, session_creator: Callable[[], tf1.Session] | None = None, seed: int | None = None)[源代码]#
特定框架的策略创建逻辑。
- 参数:
policy_id – 策略 ID。
policy_class – 策略类类型。
merged_config – 完整的策略配置。
observation_space – env 的观察空间
action_space – 环境的行为空间。
worker_index – 持有此策略的工作者索引。默认值是 0。
session_creator – 一个可选的 tf1.Session 创建可调用对象。
seed – 可选的随机种子。