ray.rllib.utils.replay_buffers.utils.update_priorities_in_replay_buffer#

ray.rllib.utils.replay_buffers.utils.update_priorities_in_replay_buffer(replay_buffer: ReplayBuffer, config: dict, train_batch: SampleBatch | MultiAgentBatch | Dict[str, Any], train_results: Dict) None[源代码]#

根据训练结果更新优先回放缓冲区中的优先级。

损失(在 train_results 内部)中的 abs(TD-error) 被用作训练批次中采样的行索引的新优先级。

如果给定的缓冲区不支持优先级重放,则不执行任何操作。

参数:
  • replay_buffer – 回放缓冲区,其优先级值需要更新。这也可能是一个不支持优先级的缓冲区。

  • config – 算法的配置字典。

  • train_batch – 用于训练更新的批次。

  • train_results – 一个由例如 train_one_step() 工具生成的训练结果字典。