ray.rllib.utils.replay_buffers.multi_agent_prioritized_replay_buffer.MultiAgentPrioritizedReplayBuffer#

class ray.rllib.utils.replay_buffers.multi_agent_prioritized_replay_buffer.MultiAgentPrioritizedReplayBuffer(capacity: int = 10000, storage_unit: str = 'timesteps', num_shards: int = 1, replay_mode: str = 'independent', replay_sequence_override: bool = True, replay_sequence_length: int = 1, replay_burn_in: int = 0, replay_zero_init_states: bool = True, underlying_buffer_config: dict = None, prioritized_replay_alpha: float = 0.6, prioritized_replay_beta: float = 0.4, prioritized_replay_eps: float = 1e-06, **kwargs)[源代码]#

基类：MultiAgentReplayBuffer, PrioritizedReplayBuffer

用于多智能体设置的优先回放缓冲区分片。

这个缓冲区旨在并行运行，以在 num_shards 个分片之间分配经验。与更简单的缓冲区不同，它持有一组缓冲区——每个策略ID对应一个缓冲区。

开发者API: 此API可能会在Ray的次要版本之间发生变化。

方法

`__init__`	初始化一个 MultiAgentReplayBuffer 实例。
`add`	将一批数据添加到相应策略的重放缓冲区中。
`apply`	使用此 Actor 实例调用给定的函数。
`get_host`	返回计算机的网络名称。
`get_state`	返回所有本地状态。
`ping`	Ping 操作者。
`replay`	开发者API: 此API可能会在Ray的次要版本之间发生变化。
`sample`	从每个策略的缓冲区中采样一个包含 `num_items` 的 MultiAgentBatch。
`set_state`	将所有本地状态恢复到提供的 `state`。
`stats`	返回此缓冲区及其所有底层缓冲区的统计信息。
`update_priorities`	更新底层重放缓冲区的优先级。