ray.rllib.env.env_runner_group.EnvRunnerGroup.foreach_policy#

EnvRunnerGroup.foreach_policy(func: Callable[[Policy, str], T]) List[T][源代码]#

使用每个工作者的 (policy, PolicyID) 元组调用 func

请注意,在多智能体情况下,每个工作者可能有多于一个策略。

参数:

func – 一个函数 - 接受一个策略及其ID - 该函数在所有工作者的策略上调用。

返回:

所有工作者的策略上 func 的返回值列表。这个列表的长度是:(工作者数量 + 1 (本地工作者)) * [多智能体配置字典中的策略数量]。本地工作者的结果排在前面,然后是所有远程工作者的结果。

开发者API: 此API可能会在Ray的次要版本之间发生变化。