ray.rllib.utils.exploration.random_encoder.RE3.__init__#
- RE3.__init__(action_space: gymnasium.spaces.Space, *, framework: str, model: ModelV2, embeds_dim: int = 128, encoder_net_config: dict | None = None, beta: float = 0.2, beta_schedule: str = 'constant', rho: float = 0.1, k_nn: int = 50, random_timesteps: int = 10000, sub_exploration: Dict[str, Any] | type | str | None = None, **kwargs)[源代码]#
初始化 RE3。
- 参数:
action_space – 探索的动作空间。
framework – 支持“tf”,此实现不支持 torch。
model – 政策的模型。
embeds_dim – 潜在空间中观测嵌入向量的维度。
encoder_net_config – 编码器网络的可选模型配置,用于从观测中生成嵌入向量。这可以用来配置 fcnet 或 conv_net 设置,以正确处理任何观测空间。
beta – 用于在探索和利用之间进行选择的超参数。
beta_schedule – 用于贝塔衰变的调度,可以是“constant”或“linear_decay”之一。
rho – Beta 衰减因子,用于 on-policy 算法。
k_nn – K-NN 熵估计中要设置的邻居数量。
random_timesteps – 完全随机行动的时间步数(参见 [1])。
sub_exploration – 底层探索使用的配置字典(例如,DQN的epsilon-greedy)。如果为None,则使用策略默认配置中提供的FromSpecDict。
- 抛出:
ValueError – 如果输入框架是 Torch。