ray.rllib.utils.policy.本地策略推断#

ray.rllib.utils.policy.local_policy_inference(policy: Policy, env_id: str, agent_id: str, obs: numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor | dict | tuple, reward: float | None = None, terminated: bool | None = None, truncated: bool | None = None, info: Dict | None = None, explore: bool = None, timestep: int | None = None) numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor | dict | tuple[源代码]#

使用环境观察运行一个启用了连接器的策略。

policy_inference 管理策略和代理/动作连接器,因此用户不必关心 RNN 状态缓冲或额外的获取字典。请注意,连接器有意与 compute_actions_from_input_dict() 分开运行,这样我们可以在服务器-客户端部署中选择在客户端运行每个用户的连接器。

参数:
  • policy – 用于推理的策略对象。

  • env_id – 环境ID。RLlib 基于此在内部构建环境的轨迹,即每个 (env_id, agent_id) 元组对应一个轨迹。

  • agent_id – 代理ID。RLlib 基于此在内部构建代理的轨迹,即每个 (env_id, agent_id) 元组对应一个轨迹。

  • obs – 基于环境观察来决定行动。

  • reward – 在推理过程中可能使用的奖励。如果不需要,可以留空。某些策略有需要此项的视图要求。这可以在第一次推理步骤时设置为零 - 例如在调用 gmy.Env.reset 之后。

  • terminatedTerminated 标志,可能在推理过程中使用。如果不需要,可以留为 None。某些策略有视图需求,需要这些额外信息。

  • truncatedTruncated 标志,可能在推理过程中使用。如果不需要,可以保留为 None。某些策略有视图需求,需要这些额外信息。

  • info – 在推理过程中可能使用的信息。如果不需要,可以留空。某些策略有需要此信息的视图要求。

  • explore – 选择利用还是探索动作(默认:None -> 使用 self.config[“explore”])。

  • timestep – 当前(采样)时间步。

返回:

策略前向传递的输出列表。

PublicAPI (alpha): 此API处于alpha阶段,可能在稳定之前发生变化。