ray.rllib.models.tf.tf_modelv2.TFModelV2.custom_loss#

TFModelV2.custom_loss(policy_loss: numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor, loss_inputs: Dict[str, numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor]) List[numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor] | numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor#

覆盖以自定义用于优化此模型的损失函数。

这可以用来整合自监督损失(通过定义现有输入和输出张量的损失),以及监督损失(通过定义此模型层的变量共享副本的损失)。

你可以在 examples/custom_loss.py 中找到一个可运行的示例。

参数:
  • policy_loss – 策略中的策略损失列表或单个策略损失。

  • loss_inputs – 用于推广数据的输入占位符映射。

返回:

用于此模型的自定义损失(们)的列表或标量张量。