ray.rllib.models.modelv2.ModelV2.value_function#

ModelV2.value_function() numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor[源代码]#

返回最近一次前向传递的值函数输出。

请注意,在调用此方法之前,必须先执行 forward 调用,然后此方法才能返回任何内容,因此调用此方法不会导致网络的额外前向传递。

返回:

形状为 [BATCH] 的值估计张量。