ray.rllib.utils.exploration.epsilon_greedy.EpsilonGreedy#
- class ray.rllib.utils.exploration.epsilon_greedy.EpsilonGreedy(action_space: gymnasium.spaces.Space, *, framework: str, initial_epsilon: float = 1.0, final_epsilon: float = 0.05, warmup_timesteps: int = 0, epsilon_timesteps: int = 100000, epsilon_schedule: Schedule | None = None, **kwargs)[源代码]#
基类:
Exploration
Epsilon-greedy 探索类,用于生成探索动作。
当给定一个模型的输出和一个基于某种计划的当前 epsilon 值时,它会生成一个随机动作(如果 rand(1) < eps)或使用模型计算的动作(如果 rand(1) >= eps)。
方法
创建一个 EpsilonGreedy 探索类。
在调用 policy.compute_actions() 之前的准备工作钩子。
可以将优化器添加到策略自身的
optimizers
中。在剧集结束时处理必要的探索逻辑。
在剧集开始时处理必要的探索逻辑。
处理已完成剧情节点的后处理。