ray.rllib.utils.exploration.random.Random.postprocess_trajectory#
- Random.postprocess_trajectory(policy: Policy, sample_batch: SampleBatch, tf_sess: tf.Session | None = None)#
处理已完成剧情节点的后处理。
就地更改给定的批次。此回调在调用 policy.postprocess_trajectory() 后由采样器调用。
- 参数:
policy – 拥有策略的对象。
sample_batch – 要后处理的 SampleBatch 对象。
tf_sess – 一个可选的 tf.Session 对象。