ray.rllib.models.modelv2.ModelV2.自定义损失#

ModelV2.custom_loss(policy_loss: numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor, loss_inputs: Dict[str, numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor]) List[numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor] | numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor[源代码]#

覆盖以自定义用于优化此模型的损失函数。

这可以用来整合自监督损失(通过定义现有输入和输出张量的损失),以及监督损失(通过定义此模型层的变量共享副本的损失)。

你可以在 examples/custom_loss.py 中找到一个可运行的示例。

参数:
  • policy_loss – 策略中的策略损失列表或单个策略损失。

  • loss_inputs – 用于推广数据的输入占位符映射。

返回:

用于此模型的自定义损失(们)的列表或标量张量。