ray.rllib.utils.exploration.epsilon_greedy.EpsilonGreedy.on_episode_start#

EpsilonGreedy.on_episode_start(policy: Policy, *, environment: BaseEnv = None, episode: int = None, tf_sess: tf.Session | None = None)#

在剧集开始时处理必要的探索逻辑。

参数:
  • policy – 持有此探索的 Policy 对象。

  • environment – 我们正在操作的环境对象。

  • episode – 正在开始的剧集编号。

  • tf_sess – 在 tf 的情况下,会话对象。