ray.rllib.utils.policy.从输入字典计算对数似然#

ray.rllib.utils.policy.compute_log_likelihoods_from_input_dict(policy: Policy, batch: SampleBatch | Dict[str, numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor | dict | tuple])[源代码]#

返回给定批次中策略动作的对数似然。

通过当前策略的 compute_log_likelihoods() 方法计算似然值

参数:

batch – 用于计算动作对数似然的 SampleBatch 或 MultiAgentBatch。此批次/批次必须包含 OBS 和 ACTIONS 键。

返回:

在给定观察和策略的情况下,批次中动作的概率。