ray.rllib.policy.sample_batch.MultiAgentBatch#
- class ray.rllib.policy.sample_batch.MultiAgentBatch(policy_batches: Dict[str, SampleBatch], env_steps: int)[源代码]#
基类:
object
来自环境中多个代理的一批经验。
- policy_batches#
字典映射策略ID到经验的SampleBatches。
- 类型:
Dict[PolicyID, SampleBatch]
- count#
这一批次的env步数。
方法
初始化一个 MultiAgentBatch 实例。
代理步骤的数量(每个环境步骤至少有1个代理步骤)。
简单地返回 `self`(已经是 MultiAgentBatch)。
就地压缩每个策略批次(按列)。
将自身深度复制到一个新的 MultiAgentBatch 中。
如果已经压缩,解压缩每个策略批次(按列)。
环境步数(每个环境步数至少有1个代理步数)。
- 返回:
所有策略批次(所有列)的总字节大小。
返回包含每个代理在那些步骤中的数据的k步批次。
TODO: 将批处理转移到指定设备作为框架张量。
根据给定的策略返回 SampleBatch 或 MultiAgentBatch。