ray.rllib.policy.Policy.learn_on_loaded_batch#

Policy.learn_on_loaded_batch(offset: int = 0, buffer_index: int = 0)[源代码]#

在已经加载到缓冲区中的数据上运行一次SGD的单步操作。

对预加载批次的一部分运行SGD步骤,偏移量为 offset 参数(对于在相同且已预加载的数据上重复执行n次小批次SGD更新非常有用)。

基于每个设备的平均梯度更新模型权重。

参数:
  • offset – 预加载数据的偏移量。用于将训练批次预加载到设备一次,然后迭代(通过子采样)此批次 n 次进行小批量随机梯度下降。

  • buffer_index – 要从已预加载数据的缓冲区(一个 MultiGPUTowerStack)的索引。每个设备上的缓冲区数量取决于 num_multi_gpu_tower_stacks 配置键的值。

返回:

在批次上评估 extra_ops 的输出。