ray.rllib.models.modelv2.ModelV2.自定义损失#
- ModelV2.custom_loss(policy_loss: numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor, loss_inputs: Dict[str, numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor]) List[numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor] | numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor [源代码]#
覆盖以自定义用于优化此模型的损失函数。
这可以用来整合自监督损失(通过定义现有输入和输出张量的损失),以及监督损失(通过定义此模型层的变量共享副本的损失)。
你可以在 examples/custom_loss.py 中找到一个可运行的示例。
- 参数:
policy_loss – 策略中的策略损失列表或单个策略损失。
loss_inputs – 用于推广数据的输入占位符映射。
- 返回:
用于此模型的自定义损失(们)的列表或标量张量。