ray.rllib.policy.policy.Policy.load_batch_into_buffer#
- Policy.load_batch_into_buffer(batch: SampleBatch, buffer_index: int = 0) int [源代码]#
将给定的 SampleBatch 批量加载到设备的内存中。
数据在所有策略设备之间平均分配。如果数据不能被批次大小整除,多余的数据应被丢弃。
- 参数:
batch – 要加载的 SampleBatch。
buffer_index – 要在设备上使用的缓冲区(一个 MultiGPUTowerStack)的索引。每个设备上的缓冲区数量取决于
num_multi_gpu_tower_stacks
配置键的值。
- 返回:
每个设备加载的元组数量。