ray.rllib.utils.exploration.epsilon_greedy.EpsilonGreedy.__init__#
- EpsilonGreedy.__init__(action_space: gymnasium.spaces.Space, *, framework: str, initial_epsilon: float = 1.0, final_epsilon: float = 0.05, warmup_timesteps: int = 0, epsilon_timesteps: int = 100000, epsilon_schedule: Schedule | None = None, **kwargs)[源代码]#
创建一个 EpsilonGreedy 探索类。
- 参数:
action_space – 探索应发生的行为空间。
framework – 框架指定器。
initial_epsilon – 要使用的初始 epsilon 值。
final_epsilon – 要使用的最终 epsilon 值。
warmup_timesteps – 在开始时不改变epsilon的时间步长。
epsilon_timesteps – 时间步(除了
warmup_timesteps
之外)之后,epsilon 应该总是final_epsilon
。例如:warmup_timesteps=20k epsilon_timesteps=50k -> 在 70k 时间步之后,epsilon 将达到其最终值。epsilon_schedule – 一个可选的 Schedule 对象以使用(而不是从给定的参数构造一个)。