ray.rllib.utils.replay_buffers.multi_agent_prioritized_replay_buffer.MultiAgentPrioritizedReplayBuffer.sample#
- MultiAgentPrioritizedReplayBuffer.sample(num_items: int, policy_id: str | None = None, **kwargs) SampleBatch | MultiAgentBatch | Dict[str, Any] | None #
从每个策略的缓冲区中采样一个包含
num_items
的 MultiAgentBatch。如果策略缓冲区中的记录少于
num_items
条,结果中的一些样本可能会重复以满足批次大小num_items
的请求。如果缓冲区中没有项目,则返回一个空批次。- 参数:
num_items – 从策略的缓冲区中采样的项目数量。
policy_id – 创建我们采样体验的策略ID。如果
given (none is)
policies. (sample from all)
- 返回:
连接的多智能体批次项目。
**kwargs
: 向前兼容的关键字参数。
开发者API: 此API可能会在Ray的次要版本之间发生变化。