Register for Ray Summit 2024 with keynotes from Mira Murati, Marc Andreessen, and Anastasis Germanidis.

ray.rllib.models.tf.tf_modelv2.TFModelV2.custom_loss#

TFModelV2.custom_loss(policy_loss: numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor, loss_inputs: Dict[str, numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor]) → List[numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor] | numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor#

覆盖以自定义用于优化此模型的损失函数。

这可以用来整合自监督损失（通过定义现有输入和输出张量的损失），以及监督损失（通过定义此模型层的变量共享副本的损失）。

你可以在 examples/custom_loss.py 中找到一个可运行的示例。

参数:

policy_loss – 策略中的策略损失列表或单个策略损失。
loss_inputs – 用于推广数据的输入占位符映射。

返回:

用于此模型的自定义损失（们）的列表或标量张量。