ray.rllib.policy.torch_policy_v2.TorchPolicyV2.后处理轨迹#
- TorchPolicyV2.postprocess_trajectory(sample_batch: SampleBatch, other_agent_batches: Dict[Any, SampleBatch] | None = None, episode: Episode | None = None) SampleBatch [源代码]#
对轨迹进行后处理并返回处理后的轨迹。
轨迹仅包含来自一个情节和一个代理的数据。- 如果
config.batch_mode=truncate_episodes`(默认),sample_batch 可能包含一个被截断(在结尾处)的情节,以防采样器达到 `config.rollout_fragment_length
。- 如果config.batch_mode=complete_episodes
,sample_batch 将恰好包含一个情节(无论多长)。可以向 sample_batch 添加新列,并且现有列可能会被修改。- 参数:
sample_batch – 要后处理的 SampleBatch。
other_agent_batches (Optional[Dict[PolicyID, SampleBatch]]) – 可选的 AgentID 字典,映射到其他代理的轨迹数据(来自同一集)。注意:其他代理使用相同的策略。
episode (Optional[Episode]) – 可选的多智能体剧集对象,智能体在其中操作。
- 返回:
后处理并修改后的 SampleBatch(或一个新的)。
- 返回类型: