ray.rllib.utils.exploration.epsilon_greedy.EpsilonGreedy#

class ray.rllib.utils.exploration.epsilon_greedy.EpsilonGreedy(action_space: gymnasium.spaces.Space, *, framework: str, initial_epsilon: float = 1.0, final_epsilon: float = 0.05, warmup_timesteps: int = 0, epsilon_timesteps: int = 100000, epsilon_schedule: Schedule | None = None, **kwargs)[源代码]#

基类：Exploration

Epsilon-greedy 探索类，用于生成探索动作。

当给定一个模型的输出和一个基于某种计划的当前 epsilon 值时，它会生成一个随机动作（如果 rand(1) < eps）或使用模型计算的动作（如果 rand(1) >= eps）。

方法

`__init__`	创建一个 EpsilonGreedy 探索类。
`before_compute_actions`	在调用 policy.compute_actions() 之前的准备工作钩子。
`get_exploration_optimizer`	可以将优化器添加到策略自身的 `optimizers` 中。
`on_episode_end`	在剧集结束时处理必要的探索逻辑。
`on_episode_start`	在剧集开始时处理必要的探索逻辑。
`postprocess_trajectory`	处理已完成剧情节点的后处理。