ray.rllib.utils.exploration.ornstein_uhlenbeck_noise.OrnsteinUhlenbeckNoise#

class ray.rllib.utils.exploration.ornstein_uhlenbeck_noise.OrnsteinUhlenbeckNoise(action_space, *, framework: str, ou_theta: float = 0.15, ou_sigma: float = 0.2, ou_base_scale: float = 0.1, random_timesteps: int = 1000, initial_scale: float = 1.0, final_scale: float = 0.02, scale_timesteps: int = 10000, scale_schedule: Schedule | None = None, **kwargs)[源代码]#

基类：GaussianNoise

一种探索方法，向连续动作添加 Ornstein-Uhlenbeck 噪声。

如果 explore=True，返回采样的动作加上一个噪声项 X，该噪声项根据以下公式变化：Xt+1 = -theta*Xt + sigma*N[0,stddev]，其中 theta、sigma 和 stddev 是常数。此外，在开始时可能会有一些完全随机的周期。如果 explore=False，则返回确定性动作。

方法

`__init__`	初始化一个 Ornstein-Uhlenbeck 探索对象。
`before_compute_actions`	在调用 policy.compute_actions() 之前的准备工作钩子。
`get_exploration_optimizer`	可以将优化器添加到策略自身的 `optimizers` 中。
`get_state`	返回当前的缩放值。
`on_episode_end`	在剧集结束时处理必要的探索逻辑。
`on_episode_start`	在剧集开始时处理必要的探索逻辑。
`postprocess_trajectory`	处理已完成剧情节点的后处理。