ray.rllib.policy.eager_tf_policy_v2.EagerTFPolicyV2.postprocess_trajectory#

EagerTFPolicyV2.postprocess_trajectory(sample_batch: SampleBatch, other_agent_batches: SampleBatch | None = None, episode: Episode | None = None)[源代码]#

以 SampleBatch 格式进行轨迹后处理。

参数:
  • sample_batch – sample_batch: 策略的经验批次,其中最多包含一个剧情节轨迹。

  • other_agent_batches – 在多智能体环境中,这包含一个从智能体ID到(策略,智能体批次)元组的映射,其中包含其他智能体的策略和经验。

  • episode – 一个可选的多智能体剧集对象,用于提供访问所有内部剧集状态的权限,这对于基于模型的或多智能体算法可能很有用。

返回:

后处理的样本批次。