备注

Ray 2.10.0 引入了 RLlib 的“新 API 栈”的 alpha 阶段。Ray 团队计划将算法、示例脚本和文档迁移到新的代码库中,从而在 Ray 3.0 之前的后续小版本中逐步替换“旧 API 栈”(例如,ModelV2、Policy、RolloutWorker)。

然而,请注意,到目前为止,只有 PPO(单代理和多代理)和 SAC(仅单代理)支持“新 API 堆栈”,并且默认情况下继续使用旧 API 运行。您可以继续使用现有的自定义(旧堆栈)类。

请参阅此处 以获取有关如何使用新API堆栈的更多详细信息。

目录 API#

基本用法#

使用以下基本API从Catalog获取默认的 encoderaction distribution。要更改Catalog的行为,请修改以下方法。特定于算法的Catalog实现有额外的方法,例如,用于构建 heads

Catalog

描述了在 RLModules 中使用的子模块架构。

Catalog.build_encoder

构建编码器。

Catalog.get_action_dist_cls

获取动作分布类。

Catalog.get_tokenizer_config

返回给定空间的标记器配置。

高级用法#

以下方法和属性由目录内部用于构建默认模型。仅在需要更精细控制时覆盖它们。

Catalog.latent_dims

返回编码器的潜在维度。

Catalog._determine_components_hook

决策树钩子,供子类覆盖。

Catalog._get_encoder_config

返回给定 input_space 和 model_config_dict 的 EncoderConfig。

Catalog._get_dist_cls_from_action_space

返回给定动作空间的分布类。