ray.rllib.utils.exploration.random_encoder.RE3.init#

RE3.__init__(action_space: gymnasium.spaces.Space, *, framework: str, model: ModelV2, embeds_dim: int = 128, encoder_net_config: dict | None = None, beta: float = 0.2, beta_schedule: str = 'constant', rho: float = 0.1, k_nn: int = 50, random_timesteps: int = 10000, sub_exploration: Dict[str, Any] | type | str | None = None, **kwargs)[源代码]#

初始化 RE3。

参数:

action_space – 探索的动作空间。
framework – 支持“tf”，此实现不支持 torch。
model – 政策的模型。
embeds_dim – 潜在空间中观测嵌入向量的维度。
encoder_net_config – 编码器网络的可选模型配置，用于从观测中生成嵌入向量。这可以用来配置 fcnet 或 conv_net 设置，以正确处理任何观测空间。
beta – 用于在探索和利用之间进行选择的超参数。
beta_schedule – 用于贝塔衰变的调度，可以是“constant”或“linear_decay”之一。
rho – Beta 衰减因子，用于 on-policy 算法。
k_nn – K-NN 熵估计中要设置的邻居数量。
random_timesteps – 完全随机行动的时间步数（参见 [1]）。
sub_exploration – 底层探索使用的配置字典（例如，DQN的epsilon-greedy）。如果为None，则使用策略默认配置中提供的FromSpecDict。

抛出:

ValueError – 如果输入框架是 Torch。

ray.rllib.utils.exploration.random_encoder.RE3.__init__#