ray.rllib.evaluation.rollout_worker.RolloutWorker.foreach_policy_to_train#

RolloutWorker.foreach_policy_to_train(func: Callable[[Policy, str, Any | None], T], **kwargs) → List[T][源代码]#

使用每个 (策略, 策略ID) 元组调用给定的函数。

只有那些 self.is_policy_to_train() 返回 True 的策略/ID 会被调用。

参数:: func – 对于那些 self.is_policy_to_train 返回 True 的策略，调用每个 (策略, 策略ID) 元组的函数。
关键字参数:: kwargs – 要传递给调用的额外关键字参数。
返回:: 所有调用 func([policy, pid, **kwargs]) 的返回值列表。