ray.rllib.models.tf.tf_modelv2.TFModelV2.价值函数#

TFModelV2.value_function() numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor#

返回最近一次前向传递的值函数输出。

请注意,在调用此方法之前,必须先执行 forward 调用,然后此方法才能返回任何内容,因此调用此方法不会导致网络的额外前向传递。

返回:

形状为 [BATCH] 的值估计张量。