ray.rllib.utils.exploration.parameter_noise.ParameterNoise#

class ray.rllib.utils.exploration.parameter_noise.ParameterNoise(action_space, *, framework: str, policy_config: dict, model: ModelV2, initial_stddev: float = 1.0, random_timesteps: int = 10000, sub_exploration: dict | None = None, **kwargs)[源代码]#

基类:Exploration

改变模型参数的探索。

基于以下实现:[1] https://openai.com/research/better-exploration-with-parameter-noise [2] https://arxiv.org/pdf/1706.01905.pdf

在每一集的开始,高斯噪声被添加到模型的所有权重中。在每一集的结束时,噪声被撤销,并计算出一个动作差异(pi-delta),从中我们确定下一集噪声标准差的改变。

方法

__init__

初始化一个参数噪声探索对象。

get_exploration_optimizer

可以将优化器添加到策略自身的 optimizers 中。