ray.rllib.utils.exploration.exploration.Exploration.on_episode_end#

Exploration.on_episode_end(policy: Policy, *, environment: BaseEnv = None, episode: int = None, tf_sess: tf.Session | None = None)[源代码]#

在剧集结束时处理必要的探索逻辑。

参数:
  • policy – 持有此探索的 Policy 对象。

  • environment – 我们正在操作的环境对象。

  • episode – 正在开始的剧集编号。

  • tf_sess – 在 tf 的情况下,会话对象。