ray.rllib.utils.exploration.epsilon_greedy.EpsilonGreedy.__init__#

EpsilonGreedy.__init__(action_space: gymnasium.spaces.Space, *, framework: str, initial_epsilon: float = 1.0, final_epsilon: float = 0.05, warmup_timesteps: int = 0, epsilon_timesteps: int = 100000, epsilon_schedule: Schedule | None = None, **kwargs)[源代码]#

创建一个 EpsilonGreedy 探索类。

参数:
  • action_space – 探索应发生的行为空间。

  • framework – 框架指定器。

  • initial_epsilon – 要使用的初始 epsilon 值。

  • final_epsilon – 要使用的最终 epsilon 值。

  • warmup_timesteps – 在开始时不改变epsilon的时间步长。

  • epsilon_timesteps – 时间步(除了 warmup_timesteps 之外)之后,epsilon 应该总是 final_epsilon。例如:warmup_timesteps=20k epsilon_timesteps=50k -> 在 70k 时间步之后,epsilon 将达到其最终值。

  • epsilon_schedule – 一个可选的 Schedule 对象以使用(而不是从给定的参数构造一个)。