ray.rllib.utils.exploration.random.Random.postprocess_trajectory#

Random.postprocess_trajectory(policy: Policy, sample_batch: SampleBatch, tf_sess: tf.Session | None = None)#

处理已完成剧情节点的后处理。

就地更改给定的批次。此回调在调用 policy.postprocess_trajectory() 后由采样器调用。

参数:
  • policy – 拥有策略的对象。

  • sample_batch – 要后处理的 SampleBatch 对象。

  • tf_sess – 一个可选的 tf.Session 对象。