ray.rllib.algorithms.algorithm_config.AlgorithmConfig.rl_模块#

AlgorithmConfig.rl_module(*, model_config_dict: ~typing.Dict[str, ~typing.Any] | None = <ray.rllib.utils.from_config._NotProvided object>, rl_module_spec: ~ray.rllib.core.rl_module.rl_module.RLModuleSpec | ~ray.rllib.core.rl_module.multi_rl_module.MultiRLModuleSpec | None = <ray.rllib.utils.from_config._NotProvided object>, algorithm_config_overrides_per_module: ~typing.Dict[str, dict] | None = <ray.rllib.utils.from_config._NotProvided object>, _enable_rl_module_api=-1) → AlgorithmConfig[源代码]#

设置配置的 RLModule 设置。

参数:

model_config_dict – RLModule 的默认模型配置字典。如果 rl_module_spec 中没有另行指定，将使用此配置。
rl_module_spec – 此配置使用的 RLModule 规范。它可以是 RLModuleSpec 或 MultiRLModuleSpec。如果未指定 observation_space、action_space、catalog_class 或模型配置，则将从环境和其他算法配置对象部分推断。
algorithm_config_overrides_per_module – 仅在 enable_rl_module_and_learner=True 时使用。这是一个从模块ID到每个模块的算法配置覆盖字典的映射，这些覆盖字典将某些设置（例如学习率）从主算法配置中仅应用于特定的模块（在 MultiRLModule 中）。您可以通过使用 AlgorithmConfig.overrides 实用程序来创建覆盖字典。例如，要仅为 MultiRLModule 中的单个 RLModule 覆盖学习率和（PPO）lambda 设置，请执行：config.multi_agent(algorithm_config_overrides_per_module={ “module_1”: PPOConfig.overrides(lr=0.0002, lambda_=0.75), })

返回:

这个更新的 AlgorithmConfig 对象。