ray.rllib.policy.torch_policy_v2.TorchPolicyV2.后处理轨迹#

TorchPolicyV2.postprocess_trajectory(sample_batch: SampleBatch, other_agent_batches: Dict[Any, SampleBatch] | None = None, episode: Episode | None = None) → SampleBatch[源代码]#

对轨迹进行后处理并返回处理后的轨迹。

轨迹仅包含来自一个情节和一个代理的数据。- 如果 config.batch_mode=truncate_episodes`（默认），sample_batch 可能包含一个被截断（在结尾处）的情节，以防采样器达到 `config.rollout_fragment_length。- 如果 config.batch_mode=complete_episodes，sample_batch 将恰好包含一个情节（无论多长）。可以向 sample_batch 添加新列，并且现有列可能会被修改。

参数:

sample_batch – 要后处理的 SampleBatch。
other_agent_batches (Optional[Dict[PolicyID, SampleBatch]]) – 可选的 AgentID 字典，映射到其他代理的轨迹数据（来自同一集）。注意：其他代理使用相同的策略。
episode (Optional[Episode]) – 可选的多智能体剧集对象，智能体在其中操作。

返回:

后处理并修改后的 SampleBatch（或一个新的）。

返回类型:

SampleBatch