ray.rllib.utils.replay_buffers.utils.sample_min_n_steps_from_buffer#
- ray.rllib.utils.replay_buffers.utils.sample_min_n_steps_from_buffer(replay_buffer: ReplayBuffer, min_steps: int, count_by_agent_steps: bool) SampleBatch | MultiAgentBatch | Dict[str, Any] | None [源代码]#
从给定的回放缓冲区中采样最少 n 个时间步。
此实用方法主要由 QMIX 算法使用,并有助于对给定数量的时间步进行采样,这些时间步以序列或完整剧集为单位存储样本。从回放缓冲区中采样 n 个批次,直到时间步总数达到
train_batch_size
。- 参数:
replay_buffer – 从重放缓冲区中采样
num_timesteps – 采样的步数
count_by_agent_steps – 是否计算代理步骤或环境步骤
- 返回:
一个从缓冲区中获取样本的连接的 SampleBatch 或 MultiAgentBatch。
开发者API: 此API可能会在Ray的次要版本之间发生变化。