ray.rllib.utils.replay_buffers.multi_agent_prioritized_replay_buffer.MultiAgentPrioritizedReplayBuffer.sample#

MultiAgentPrioritizedReplayBuffer.sample(num_items: int, policy_id: str | None = None, **kwargs) → SampleBatch | MultiAgentBatch | Dict[str, Any] | None#

从每个策略的缓冲区中采样一个包含 num_items 的 MultiAgentBatch。

如果策略缓冲区中的记录少于 num_items 条，结果中的一些样本可能会重复以满足批次大小 num_items 的请求。如果缓冲区中没有项目，则返回一个空批次。

参数:

返回:

连接的多智能体批次项目。**kwargs: 向前兼容的关键字参数。

开发者API: 此API可能会在Ray的次要版本之间发生变化。