ray.rllib.算法.算法配置.AlgorithmConfig.构建学习器#

AlgorithmConfig.build_learner(*, env: Any | gymnasium.Env | None = None, spaces: Dict[str, Tuple[gymnasium.Space, gymnasium.Space]] | None = None) → Learner[源代码]#

基于 self 中的设置构建并返回一个新的 Learner 对象。

这个 Learner 对象将已经调用了其 build() 方法，这意味着其 RLModule 已经构建完成。

参数:

env – 一个可选的 EnvType 对象（例如 gym.Env），用于提取空间信息，以便在 Learner 内部构建 RLModule。请注意，如果 RLlib 无法从 env 参数、可选的 spaces 参数或 self 中推断出任何空间信息，则无法创建 Learner。
spaces – 一个可选的字典，将ModuleIDs映射到（观察空间，动作空间）元组，用于在Learner内部构建的RLModule。请注意，如果RLlib无法从`spces`参数、可选的`env`参数或`self`中推断出任何空间信息，则无法创建Learner。

返回:

新创建（且已构建）的 Learner 对象。