ray.rllib.policy.Policy.learn_on_loaded_batch#
- Policy.learn_on_loaded_batch(offset: int = 0, buffer_index: int = 0)[源代码]#
在已经加载到缓冲区中的数据上运行一次SGD的单步操作。
对预加载批次的一部分运行SGD步骤,偏移量为
offset
参数(对于在相同且已预加载的数据上重复执行n次小批次SGD更新非常有用)。基于每个设备的平均梯度更新模型权重。
- 参数:
offset – 预加载数据的偏移量。用于将训练批次预加载到设备一次,然后迭代(通过子采样)此批次 n 次进行小批量随机梯度下降。
buffer_index – 要从已预加载数据的缓冲区(一个 MultiGPUTowerStack)的索引。每个设备上的缓冲区数量取决于
num_multi_gpu_tower_stacks
配置键的值。
- 返回:
在批次上评估 extra_ops 的输出。