ray.rllib.evaluation.rollout_worker.RolloutWorker.__init__#

RolloutWorker.__init__(*, env_creator: Callable[[EnvContext], Any | gymnasium.Env | None], validate_env: Callable[[Any | gymnasium.Env, EnvContext], None] | None = None, config: AlgorithmConfig | None = None, worker_index: int = 0, num_workers: int | None = None, recreated_worker: bool = False, log_dir: str | None = None, spaces: Dict[str, Tuple[gymnasium.spaces.Space, gymnasium.spaces.Space]] | None = None, default_policy_class: Type[Policy] | None = None, dataset_shards: List[Dataset] | None = None, **kwargs)[源代码]#

初始化一个 RolloutWorker 实例。

参数:
  • env_creator – 给定一个包装配置的EnvContext,返回一个gym.Env的函数。

  • validate_env – 可选的可调用对象,用于验证生成的环境(仅在 worker=0 时)。

  • worker_index – 对于远程工作者,这应该设置为一个非零且唯一的值。此索引通过 EnvContext 传递给创建的环境,以便可以按工作者配置环境。

  • recreated_worker – 这个工作者是否是重新创建的。如果 recreate_failed_env_runners=True 并且原始工作者之一(或已经重新创建的工作者)失败,工作者将由算法(通过 EnvRunnerGroup)重新创建。除了这个标志的值(self.recreated_worker)之外,它们与原始工作者没有区别。

  • log_dir – 可以放置日志的目录。

  • spaces – 一个可选的空间字典,将策略ID映射到 (obs_space, action_space) 元组。如果在此 RolloutWorker 上没有创建环境,则使用此字典。