ray.rllib.policy.torch_policy_v2.TorchPolicyV2.后处理轨迹#

TorchPolicyV2.postprocess_trajectory(sample_batch: SampleBatch, other_agent_batches: Dict[Any, SampleBatch] | None = None, episode: Episode | None = None) SampleBatch[源代码]#

对轨迹进行后处理并返回处理后的轨迹。

轨迹仅包含来自一个情节和一个代理的数据。- 如果 config.batch_mode=truncate_episodes`(默认),sample_batch 可能包含一个被截断(在结尾处)的情节,以防采样器达到 `config.rollout_fragment_length。- 如果 config.batch_mode=complete_episodes,sample_batch 将恰好包含一个情节(无论多长)。可以向 sample_batch 添加新列,并且现有列可能会被修改。

参数:
  • sample_batch – 要后处理的 SampleBatch。

  • other_agent_batches (Optional[Dict[PolicyID, SampleBatch]]) – 可选的 AgentID 字典,映射到其他代理的轨迹数据(来自同一集)。注意:其他代理使用相同的策略。

  • episode (Optional[Episode]) – 可选的多智能体剧集对象,智能体在其中操作。

返回:

后处理并修改后的 SampleBatch(或一个新的)。

返回类型:

SampleBatch