ray.rllib.evaluation.rollout_worker.RolloutWorker.get_policies_to_train#

RolloutWorker.get_policies_to_train(batch: SampleBatch | MultiAgentBatch | Dict[str, Any] | None = None) → Set[str][源代码]#

返回所有待训练的策略，给定一个可选的批次。

遍历 self.policy_map 中当前所有的策略，并检查 self.is_policy_to_train(pid, batch) 的返回值。

参数:: batch – 用于 self.is_policy_to_train(pid, [batch]?) 检查的可选 SampleBatchType。
返回:: 当前可训练策略ID的集合，给定可选的 batch。

PublicAPI (alpha): 此API处于alpha阶段，可能在稳定之前发生变化。