ray.rllib.evaluation.rollout_worker.RolloutWorker.get_policies_to_train#
- RolloutWorker.get_policies_to_train(batch: SampleBatch | MultiAgentBatch | Dict[str, Any] | None = None) Set[str] [源代码]#
返回所有待训练的策略,给定一个可选的批次。
遍历
self.policy_map
中当前所有的策略,并检查self.is_policy_to_train(pid, batch)
的返回值。- 参数:
batch – 用于
self.is_policy_to_train(pid, [batch]?)
检查的可选 SampleBatchType。- 返回:
当前可训练策略ID的集合,给定可选的
batch
。
PublicAPI (alpha): 此API处于alpha阶段,可能在稳定之前发生变化。