ray.rllib.utils.replay_buffers.utils.update_priorities_in_replay_buffer#
- ray.rllib.utils.replay_buffers.utils.update_priorities_in_replay_buffer(replay_buffer: ReplayBuffer, config: dict, train_batch: SampleBatch | MultiAgentBatch | Dict[str, Any], train_results: Dict) None [源代码]#
根据训练结果更新优先回放缓冲区中的优先级。
损失(在
train_results
内部)中的abs(TD-error)
被用作训练批次中采样的行索引的新优先级。如果给定的缓冲区不支持优先级重放,则不执行任何操作。
- 参数:
replay_buffer – 回放缓冲区,其优先级值需要更新。这也可能是一个不支持优先级的缓冲区。
config – 算法的配置字典。
train_batch – 用于训练更新的批次。
train_results – 一个由例如
train_one_step()
工具生成的训练结果字典。