Register for Ray Summit 2024 with keynotes from Mira Murati, Marc Andreessen, and Anastasis Germanidis.

ray.rllib.utils.policy.从输入字典计算对数似然#

ray.rllib.utils.policy.compute_log_likelihoods_from_input_dict(policy: Policy, batch: SampleBatch | Dict[str, numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor | dict | tuple])[源代码]#

返回给定批次中策略动作的对数似然。

通过当前策略的 compute_log_likelihoods() 方法计算似然值

参数:: batch – 用于计算动作对数似然的 SampleBatch 或 MultiAgentBatch。此批次/批次必须包含 OBS 和 ACTIONS 键。
返回:: 在给定观察和策略的情况下，批次中动作的概率。