ray.rllib.utils.exploration.epsilon_greedy.EpsilonGreedy#

class ray.rllib.utils.exploration.epsilon_greedy.EpsilonGreedy(action_space: gymnasium.spaces.Space, *, framework: str, initial_epsilon: float = 1.0, final_epsilon: float = 0.05, warmup_timesteps: int = 0, epsilon_timesteps: int = 100000, epsilon_schedule: Schedule | None = None, **kwargs)[源代码]#

基类:Exploration

Epsilon-greedy 探索类,用于生成探索动作。

当给定一个模型的输出和一个基于某种计划的当前 epsilon 值时,它会生成一个随机动作(如果 rand(1) < eps)或使用模型计算的动作(如果 rand(1) >= eps)。

方法

__init__

创建一个 EpsilonGreedy 探索类。

before_compute_actions

在调用 policy.compute_actions() 之前的准备工作钩子。

get_exploration_optimizer

可以将优化器添加到策略自身的 optimizers 中。

on_episode_end

在剧集结束时处理必要的探索逻辑。

on_episode_start

在剧集开始时处理必要的探索逻辑。

postprocess_trajectory

处理已完成剧情节点的后处理。