Register for Ray Summit 2024 with keynotes from Mira Murati, Marc Andreessen, and Anastasis Germanidis.

ray.rllib.utils.exploration.random.Random.on_episode_end#

Random.on_episode_end(policy: Policy, *, environment: BaseEnv = None, episode: int = None, tf_sess: tf.Session | None = None)#

在剧集结束时处理必要的探索逻辑。

参数:

policy – 持有此探索的 Policy 对象。
environment – 我们正在操作的环境对象。
episode – 正在开始的剧集编号。
tf_sess – 在 tf 的情况下，会话对象。