ray.rllib.utils.replay_buffers.utils.update_priorities_in_replay_buffer#

ray.rllib.utils.replay_buffers.utils.update_priorities_in_replay_buffer(replay_buffer: ReplayBuffer, config: dict, train_batch: SampleBatch | MultiAgentBatch | Dict[str, Any], train_results: Dict) → None[源代码]#

根据训练结果更新优先回放缓冲区中的优先级。

损失（在 train_results 内部）中的 abs(TD-error) 被用作训练批次中采样的行索引的新优先级。

如果给定的缓冲区不支持优先级重放，则不执行任何操作。

参数: