ray.rllib.policy.eager_tf_policy_v2.EagerTFPolicyV2.compute_gradients_fn#

EagerTFPolicyV2.compute_gradients_fn(policy: Policy, optimizer: torch.optim.Optimizer | tf.keras.optimizers.Optimizer, loss: numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor) List[Tuple[numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor, numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor]] | List[numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor][源代码]#

梯度计算函数(从损失张量,使用本地优化器)。

参数:
  • policy – 生成损失张量并持有给定本地优化器的策略对象。

  • optimizer – 用于计算梯度的 tf(本地)优化器对象。

  • loss – 应计算梯度的损失张量。

返回:

可能被裁剪的梯度和变量元组的列表。

返回类型:

ModelGradients