ray.rllib.utils.replay_buffers.utils.sample_min_n_steps_from_buffer#

ray.rllib.utils.replay_buffers.utils.sample_min_n_steps_from_buffer(replay_buffer: ReplayBuffer, min_steps: int, count_by_agent_steps: bool) SampleBatch | MultiAgentBatch | Dict[str, Any] | None[源代码]#

从给定的回放缓冲区中采样最少 n 个时间步。

此实用方法主要由 QMIX 算法使用,并有助于对给定数量的时间步进行采样,这些时间步以序列或完整剧集为单位存储样本。从回放缓冲区中采样 n 个批次,直到时间步总数达到 train_batch_size

参数:
  • replay_buffer – 从重放缓冲区中采样

  • num_timesteps – 采样的步数

  • count_by_agent_steps – 是否计算代理步骤或环境步骤

返回:

一个从缓冲区中获取样本的连接的 SampleBatch 或 MultiAgentBatch。

开发者API: 此API可能会在Ray的次要版本之间发生变化。