ray.rllib.utils.policy.本地策略推断#
- ray.rllib.utils.policy.local_policy_inference(policy: Policy, env_id: str, agent_id: str, obs: numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor | dict | tuple, reward: float | None = None, terminated: bool | None = None, truncated: bool | None = None, info: Dict | None = None, explore: bool = None, timestep: int | None = None) numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor | dict | tuple [源代码]#
使用环境观察运行一个启用了连接器的策略。
policy_inference 管理策略和代理/动作连接器,因此用户不必关心 RNN 状态缓冲或额外的获取字典。请注意,连接器有意与 compute_actions_from_input_dict() 分开运行,这样我们可以在服务器-客户端部署中选择在客户端运行每个用户的连接器。
- 参数:
policy – 用于推理的策略对象。
env_id – 环境ID。RLlib 基于此在内部构建环境的轨迹,即每个 (env_id, agent_id) 元组对应一个轨迹。
agent_id – 代理ID。RLlib 基于此在内部构建代理的轨迹,即每个 (env_id, agent_id) 元组对应一个轨迹。
obs – 基于环境观察来决定行动。
reward – 在推理过程中可能使用的奖励。如果不需要,可以留空。某些策略有需要此项的视图要求。这可以在第一次推理步骤时设置为零 - 例如在调用 gmy.Env.reset 之后。
terminated –
Terminated
标志,可能在推理过程中使用。如果不需要,可以留为 None。某些策略有视图需求,需要这些额外信息。truncated –
Truncated
标志,可能在推理过程中使用。如果不需要,可以保留为 None。某些策略有视图需求,需要这些额外信息。info – 在推理过程中可能使用的信息。如果不需要,可以留空。某些策略有需要此信息的视图要求。
explore – 选择利用还是探索动作(默认:None -> 使用 self.config[“explore”])。
timestep – 当前(采样)时间步。
- 返回:
策略前向传递的输出列表。
PublicAPI (alpha): 此API处于alpha阶段,可能在稳定之前发生变化。