ray.rllib.utils.exploration.random.Random.postprocess_trajectory#

Random.postprocess_trajectory(policy: Policy, sample_batch: SampleBatch, tf_sess: tf.Session | None = None)#

处理已完成剧情节点的后处理。

就地更改给定的批次。此回调在调用 policy.postprocess_trajectory() 后由采样器调用。