ray.rllib.policy.sample_batch.MultiAgentBatch#

class ray.rllib.policy.sample_batch.MultiAgentBatch(policy_batches: Dict[str, SampleBatch], env_steps: int)[源代码]#

基类:object

来自环境中多个代理的一批经验。

policy_batches#

字典映射策略ID到经验的SampleBatches。

类型:

Dict[PolicyID, SampleBatch]

count#

这一批次的env步数。

方法

__init__

初始化一个 MultiAgentBatch 实例。

agent_steps

代理步骤的数量(每个环境步骤至少有1个代理步骤)。

as_multi_agent

简单地返回 `self`(已经是 MultiAgentBatch)。

compress

就地压缩每个策略批次(按列)。

copy

将自身深度复制到一个新的 MultiAgentBatch 中。

decompress_if_needed

如果已经压缩,解压缩每个策略批次(按列)。

env_steps

环境步数(每个环境步数至少有1个代理步数)。

size_bytes

返回:

所有策略批次(所有列)的总字节大小。

timeslices

返回包含每个代理在那些步骤中的数据的k步批次。

to_device

TODO: 将批处理转移到指定设备作为框架张量。

wrap_as_needed

根据给定的策略返回 SampleBatch 或 MultiAgentBatch。