Register for Ray Summit 2024 with keynotes from Mira Murati, Marc Andreessen, and Anastasis Germanidis.

ray.rllib.policy.policy.Policy.apply_gradients#

Policy.apply_gradients(gradients: List[Tuple[numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor, numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor]] | List[numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor]) → None[源代码]#

应用（之前）计算的梯度。

子类必须实现此方法与 compute_gradients() 或 learn_on_batch() 的组合。

参数:: gradients – 已经计算好的梯度，用于应用到此策略。