ray.rllib.policy.sample_batch.MultiAgentBatch.wrap_as_needed#

static MultiAgentBatch.wrap_as_needed(policy_batches: Dict[str, SampleBatch], env_steps: int) SampleBatch | MultiAgentBatch[源代码]#

根据给定的策略返回 SampleBatch 或 MultiAgentBatch。如果 policy_batches 为空(即 {}),则返回一个空的 MultiAgentBatch。

参数:
  • policy_batches – 从策略ID到SampleBatch的映射。

  • env_steps – 批次中的环境步数。

返回:

单一默认策略的 SampleBatch 或一个 MultiAgentBatch(多于一个策略)。