Register for Ray Summit 2024 with keynotes from Mira Murati, Marc Andreessen, and Anastasis Germanidis.

ray.rllib.utils.exploration.exploration.Exploration.postprocess_trajectory#

Exploration.postprocess_trajectory(policy: Policy, sample_batch: SampleBatch, tf_sess: tf.Session | None = None)[源代码]#

处理已完成剧情节点的后处理。

就地更改给定的批次。此回调在调用 policy.postprocess_trajectory() 后由采样器调用。

参数:

policy – 拥有策略的对象。
sample_batch – 要后处理的 SampleBatch 对象。
tf_sess – 一个可选的 tf.Session 对象。