ray.rllib.policy.Policy.load_batch_into_buffer#

Policy.load_batch_into_buffer(batch: SampleBatch, buffer_index: int = 0) int[源代码]#

将给定的 SampleBatch 批量加载到设备的内存中。

数据在所有策略设备之间平均分配。如果数据不能被批次大小整除,多余的数据应被丢弃。

参数:
  • batch – 要加载的 SampleBatch。

  • buffer_index – 要在设备上使用的缓冲区(一个 MultiGPUTowerStack)的索引。每个设备上的缓冲区数量取决于 num_multi_gpu_tower_stacks 配置键的值。

返回:

每个设备加载的元组数量。