ray.rllib.policy.policy.Policy.后处理轨迹#

Policy.postprocess_trajectory(sample_batch: SampleBatch, other_agent_batches: Dict[Any, Tuple[Policy, SampleBatch]] | None = None, episode: Episode | None = None) SampleBatch[源代码]#

实现特定算法的轨迹后处理。

这将在策略评估期间计算的每个轨迹片段上调用。每个片段保证只来自一个剧集。根据 batch_mode=truncate_episodes|complete_episodesrollout_fragment_length 和其他设置,给定的片段可能包含也可能不包含该剧集的结束。

参数:
  • sample_batch – 策略的批量经验,其中最多包含一个情节轨迹。

  • other_agent_batches – 在多智能体环境中,这包含一个从智能体ID到(策略,智能体批次)元组的映射,其中包含其他智能体的策略和经验。

  • episode – 一个可选的多智能体剧集对象,用于提供访问所有内部剧集状态的权限,这对于基于模型的或多智能体算法可能很有用。

返回:

后处理的样本批次。