ray.rllib.policy.policy.Policy.apply_gradients#
- Policy.apply_gradients(gradients: List[Tuple[numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor, numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor]] | List[numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor]) None [源代码]#
应用(之前)计算的梯度。
子类必须实现此方法与
compute_gradients()
或learn_on_batch()
的组合。- 参数:
gradients – 已经计算好的梯度,用于应用到此策略。