ray.rllib.evaluation.rollout_worker.RolloutWorker.get_policies_to_train#

RolloutWorker.get_policies_to_train(batch: SampleBatch | MultiAgentBatch | Dict[str, Any] | None = None) Set[str][源代码]#

返回所有待训练的策略,给定一个可选的批次。

遍历 self.policy_map 中当前所有的策略,并检查 self.is_policy_to_train(pid, batch) 的返回值。

参数:

batch – 用于 self.is_policy_to_train(pid, [batch]?) 检查的可选 SampleBatchType。

返回:

当前可训练策略ID的集合,给定可选的 batch

PublicAPI (alpha): 此API处于alpha阶段,可能在稳定之前发生变化。