Register for Ray Summit 2024 with keynotes from Mira Murati, Marc Andreessen, and Anastasis Germanidis.

ray.rllib.policy.Policy.learn_on_loaded_batch#

Policy.learn_on_loaded_batch(offset: int = 0, buffer_index: int = 0)[源代码]#

在已经加载到缓冲区中的数据上运行一次SGD的单步操作。

对预加载批次的一部分运行SGD步骤，偏移量为 offset 参数（对于在相同且已预加载的数据上重复执行n次小批次SGD更新非常有用）。

基于每个设备的平均梯度更新模型权重。

参数:

offset – 预加载数据的偏移量。用于将训练批次预加载到设备一次，然后迭代（通过子采样）此批次 n 次进行小批量随机梯度下降。
buffer_index – 要从已预加载数据的缓冲区（一个 MultiGPUTowerStack）的索引。每个设备上的缓冲区数量取决于 num_multi_gpu_tower_stacks 配置键的值。

返回:

在批次上评估 extra_ops 的输出。

优云智算