ray.rllib.utils.exploration.stochastic_sampling.StochasticSampling#
- class ray.rllib.utils.exploration.stochastic_sampling.StochasticSampling(action_space: gymnasium.spaces.Space, *, framework: str, model: ModelV2, random_timesteps: int = 0, **kwargs)[源代码]#
基类:
Exploration
一种仅从分布中采样的探索。
通过在调用
get_exploration_action
时传入 explore=False,可以使采样过程变为确定性的。此外,还允许为分布设置计划参数,例如随着时间降低标准差、温度等。方法
初始化一个 StochasticSampling 探索对象。
在调用 policy.compute_actions() 之前的准备工作钩子。
可以将优化器添加到策略自身的
optimizers
中。返回当前的探索状态。
在剧集结束时处理必要的探索逻辑。
在剧集开始时处理必要的探索逻辑。
处理已完成剧情节点的后处理。
将 Exploration 对象的状态设置为给定的值。