ray.rllib.core.rl_模块.rl_模块.RL模块规格#

class ray.rllib.core.rl_module.rl_module.RLModuleSpec(module_class: Type[RLModule] | None = None, observation_space: gymnasium.Space | None = None, action_space: gymnasium.Space | None = None, inference_only: bool = False, learner_only: bool = False, model_config_dict: Dict[str, Any] | None = None, catalog_class: Type[Catalog] | None = None, load_state_path: str | None = None)[源代码]#

基类:object

实用规范类,使构建RLModules(在单智能体情况下)更容易。

参数:
  • module_class – 要使用的 RLModule 类。

  • observation_space – RLModule 的观察空间。这可能与环境的观察空间不同。例如,环境的离散观察空间通常对应于 RLModule 的 one-hot 编码观察空间,这是由于预处理的原因。

  • action_space – RLModule 的动作空间。

  • inference_only – RLModule 是否应在其仅推理状态下配置,其中那些不需要用于动作计算的组件(例如价值函数或目标网络)可能会缺失。请注意,inference_only=Truelearner_only=True 是不允许的。

  • learner_only – 这个 RLModule 是否应该仅在 Learner 工作节点上构建,而不是在 EnvRunners 上。对于仅用于训练的多 RLModule 内部的 RLModule 非常有用,例如多智能体设置中的共享价值函数或好奇心学习设置中的世界模型。请注意,inference_only=Truelearner_only=True 是不允许的。

  • model_config_dict – 要使用的模型配置字典。

  • catalog_class – 要使用的目录类。

  • load_state_path – 要加载的模块状态的路径。注意:这必须是一个绝对路径。

PublicAPI (alpha): 此API处于alpha阶段,可能在稳定之前发生变化。

方法

as_multi_rl_module_spec

返回一个 MultiRLModuleSpec(self 在 DEFAULT_MODULE_ID 键下)。

build

根据此规范构建 RLModule。

from_dict

从序列化表示中返回一个单一的代理 RLModule 规范。

get_rl_module_config

返回此规范的 RLModule 配置。

to_dict

返回规范的序列化表示。

update

使用给定的其他规范更新此规范。

属性

action_space

catalog_class

inference_only

learner_only

load_state_path

model_config_dict

module_class

observation_space