ray.rllib.policy.policy.Policy.learn_on_batch#
- Policy.learn_on_batch(samples: SampleBatch) Dict[str, numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor] [源代码]#
执行一次学习更新,基于
samples
。子类必须实现此方法或
compute_gradients
和apply_gradients
的组合。- 参数:
samples – 用于学习的 SampleBatch 对象。
- 返回:
来自
compute_gradients()
的额外元数据的字典。
policy, sample_batch = ... policy.learn_on_batch(sample_batch)