ray.rllib.utils.policy.从输入字典计算对数似然#
- ray.rllib.utils.policy.compute_log_likelihoods_from_input_dict(policy: Policy, batch: SampleBatch | Dict[str, numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor | dict | tuple])[源代码]#
返回给定批次中策略动作的对数似然。
通过当前策略的
compute_log_likelihoods()
方法计算似然值- 参数:
batch – 用于计算动作对数似然的 SampleBatch 或 MultiAgentBatch。此批次/批次必须包含 OBS 和 ACTIONS 键。
- 返回:
在给定观察和策略的情况下,批次中动作的概率。