ray.rllib.utils.replay_buffers.multi_agent_prioritized_replay_buffer.MultiAgentPrioritizedReplayBuffer.sample#

MultiAgentPrioritizedReplayBuffer.sample(num_items: int, policy_id: str | None = None, **kwargs) SampleBatch | MultiAgentBatch | Dict[str, Any] | None#

从每个策略的缓冲区中采样一个包含 num_items 的 MultiAgentBatch。

如果策略缓冲区中的记录少于 num_items 条,结果中的一些样本可能会重复以满足批次大小 num_items 的请求。如果缓冲区中没有项目,则返回一个空批次。

参数:
  • num_items – 从策略的缓冲区中采样的项目数量。

  • policy_id – 创建我们采样体验的策略ID。如果

  • given (none is)

  • policies. (sample from all)

返回:

连接的多智能体批次项目。**kwargs: 向前兼容的关键字参数。

开发者API: 此API可能会在Ray的次要版本之间发生变化。