ray.rllib.算法.算法.算法.训练步骤#
- Algorithm.training_step() Dict [源代码]#
算法的默认单次迭代逻辑。
使用算法的 EnvRunners (@ray.remote) 并行收集 on-policy 样本 (SampleBatches)。
将收集的 SampleBatches 连接成一个训练批次。
请注意,在多智能体情况下,我们可能会有多个策略:调用不同策略的
learn_on_batch`(简单优化器)或 `load_batch_into_buffer
+ `learn_on_loaded_batch`(多GPU优化器)方法来计算损失并更新模型。返回迭代中收集的所有指标。
- 返回:
执行训练迭代后的结果字典。