Register for Ray Summit 2024 with keynotes from Mira Murati, Marc Andreessen, and Anastasis Germanidis.

ray.rllib.policy.policy.Policy.load_batch_into_buffer#

Policy.load_batch_into_buffer(batch: SampleBatch, buffer_index: int = 0) → int[源代码]#

将给定的 SampleBatch 批量加载到设备的内存中。

数据在所有策略设备之间平均分配。如果数据不能被批次大小整除，多余的数据应被丢弃。

参数:

batch – 要加载的 SampleBatch。
buffer_index – 要在设备上使用的缓冲区（一个 MultiGPUTowerStack）的索引。每个设备上的缓冲区数量取决于 num_multi_gpu_tower_stacks 配置键的值。

返回:

每个设备加载的元组数量。