ray.rllib.policy.policy.Policy.后处理轨迹#
- Policy.postprocess_trajectory(sample_batch: SampleBatch, other_agent_batches: Dict[Any, Tuple[Policy, SampleBatch]] | None = None, episode: Episode | None = None) SampleBatch [源代码]#
实现特定算法的轨迹后处理。
这将在策略评估期间计算的每个轨迹片段上调用。每个片段保证只来自一个剧集。根据
batch_mode=truncate_episodes|complete_episodes
、rollout_fragment_length
和其他设置,给定的片段可能包含也可能不包含该剧集的结束。- 参数:
sample_batch – 策略的批量经验,其中最多包含一个情节轨迹。
other_agent_batches – 在多智能体环境中,这包含一个从智能体ID到(策略,智能体批次)元组的映射,其中包含其他智能体的策略和经验。
episode – 一个可选的多智能体剧集对象,用于提供访问所有内部剧集状态的权限,这对于基于模型的或多智能体算法可能很有用。
- 返回:
后处理的样本批次。