ray.rllib.算法.算法.算法.训练步骤#

Algorithm.training_step() Dict[源代码]#

算法的默认单次迭代逻辑。

  • 使用算法的 EnvRunners (@ray.remote) 并行收集 on-policy 样本 (SampleBatches)。

  • 将收集的 SampleBatches 连接成一个训练批次。

  • 请注意,在多智能体情况下,我们可能会有多个策略:调用不同策略的 learn_on_batch`(简单优化器)或 `load_batch_into_buffer + `learn_on_loaded_batch`(多GPU优化器)方法来计算损失并更新模型。

  • 返回迭代中收集的所有指标。

返回:

执行训练迭代后的结果字典。