ray.rllib.algorithms.algorithm_config.AlgorithmConfig.rl_模块#

AlgorithmConfig.rl_module(*, model_config_dict: ~typing.Dict[str, ~typing.Any] | None = <ray.rllib.utils.from_config._NotProvided object>, rl_module_spec: ~ray.rllib.core.rl_module.rl_module.RLModuleSpec | ~ray.rllib.core.rl_module.multi_rl_module.MultiRLModuleSpec | None = <ray.rllib.utils.from_config._NotProvided object>, algorithm_config_overrides_per_module: ~typing.Dict[str, dict] | None = <ray.rllib.utils.from_config._NotProvided object>, _enable_rl_module_api=-1) AlgorithmConfig[源代码]#

设置配置的 RLModule 设置。

参数:
  • model_config_dictRLModule 的默认模型配置字典。如果 rl_module_spec 中没有另行指定,将使用此配置。

  • rl_module_spec – 此配置使用的 RLModule 规范。它可以是 RLModuleSpec 或 MultiRLModuleSpec。如果未指定 observation_space、action_space、catalog_class 或模型配置,则将从环境和其他算法配置对象部分推断。

  • algorithm_config_overrides_per_module – 仅在 enable_rl_module_and_learner=True 时使用。这是一个从模块ID到每个模块的算法配置覆盖字典的映射,这些覆盖字典将某些设置(例如学习率)从主算法配置中仅应用于特定的模块(在 MultiRLModule 中)。您可以通过使用 AlgorithmConfig.overrides 实用程序来创建覆盖字典。例如,要仅为 MultiRLModule 中的单个 RLModule 覆盖学习率和(PPO)lambda 设置,请执行:config.multi_agent(algorithm_config_overrides_per_module={ “module_1”: PPOConfig.overrides(lr=0.0002, lambda_=0.75), })

返回:

这个更新的 AlgorithmConfig 对象。