ray.rllib.utils.exploration.random_encoder.RE3.__init__#

RE3.__init__(action_space: gymnasium.spaces.Space, *, framework: str, model: ModelV2, embeds_dim: int = 128, encoder_net_config: dict | None = None, beta: float = 0.2, beta_schedule: str = 'constant', rho: float = 0.1, k_nn: int = 50, random_timesteps: int = 10000, sub_exploration: Dict[str, Any] | type | str | None = None, **kwargs)[源代码]#

初始化 RE3。

参数:
  • action_space – 探索的动作空间。

  • framework – 支持“tf”,此实现不支持 torch。

  • model – 政策的模型。

  • embeds_dim – 潜在空间中观测嵌入向量的维度。

  • encoder_net_config – 编码器网络的可选模型配置,用于从观测中生成嵌入向量。这可以用来配置 fcnet 或 conv_net 设置,以正确处理任何观测空间。

  • beta – 用于在探索和利用之间进行选择的超参数。

  • beta_schedule – 用于贝塔衰变的调度,可以是“constant”或“linear_decay”之一。

  • rho – Beta 衰减因子,用于 on-policy 算法。

  • k_nn – K-NN 熵估计中要设置的邻居数量。

  • random_timesteps – 完全随机行动的时间步数(参见 [1])。

  • sub_exploration – 底层探索使用的配置字典(例如,DQN的epsilon-greedy)。如果为None,则使用策略默认配置中提供的FromSpecDict。

抛出:

ValueError – 如果输入框架是 Torch。