备注
Ray 2.10.0 引入了 RLlib 的“新 API 栈”的 alpha 阶段。Ray 团队计划将算法、示例脚本和文档迁移到新的代码库中,从而在 Ray 3.0 之前的后续小版本中逐步替换“旧 API 栈”(例如,ModelV2、Policy、RolloutWorker)。
然而,请注意,到目前为止,只有 PPO(单代理和多代理)和 SAC(仅单代理)支持“新 API 堆栈”,并且默认情况下继续使用旧 API 运行。您可以继续使用现有的自定义(旧堆栈)类。
请参阅此处 以获取有关如何使用新API堆栈的更多详细信息。
目录 API#
基本用法#
使用以下基本API从Catalog获取默认的 encoder
或 action distribution
。要更改Catalog的行为,请修改以下方法。特定于算法的Catalog实现有额外的方法,例如,用于构建 heads
。
描述了在 RLModules 中使用的子模块架构。 |
|
构建编码器。 |
|
获取动作分布类。 |
|
返回给定空间的标记器配置。 |
高级用法#
以下方法和属性由目录内部用于构建默认模型。仅在需要更精细控制时覆盖它们。
返回编码器的潜在维度。 |
|
决策树钩子,供子类覆盖。 |
|
返回给定 input_space 和 model_config_dict 的 EncoderConfig。 |
|
返回给定动作空间的分布类。 |