ray.rllib.evaluation.rollout_worker.RolloutWorker.foreach_policy_to_train#

RolloutWorker.foreach_policy_to_train(func: Callable[[Policy, str, Any | None], T], **kwargs) List[T][源代码]#

使用每个 (策略, 策略ID) 元组调用给定的函数。

只有那些 self.is_policy_to_train() 返回 True 的策略/ID 会被调用。

参数:

func – 对于那些 self.is_policy_to_train 返回 True 的策略,调用每个 (策略, 策略ID) 元组的函数。

关键字参数:

kwargs – 要传递给调用的额外关键字参数。

返回:

所有调用 func([policy, pid, **kwargs]) 的返回值列表。