ray.rllib.utils.exploration.exploration.Exploration#

class ray.rllib.utils.exploration.exploration.Exploration(action_space: gymnasium.spaces.Space, *, framework: str, policy_config: dict, model: ModelV2, num_workers: int, worker_index: int)[源代码]#

基类:object

实现了一种策略的探索策略。

探索过程接收模型输出、分布和一个来自代理的时间步,并使用已实现的探索模式计算出一个应用于环境的动作。

方法

__init__

参数 action_space:

探索的动作空间。

before_compute_actions

在调用 policy.compute_actions() 之前的准备工作钩子。

get_exploration_action

返回一个(可能的)探索性动作及其对数似然。

get_exploration_optimizer

可以将优化器添加到策略自身的 optimizers 中。

get_state

返回当前的探索状态。

on_episode_end

在剧集结束时处理必要的探索逻辑。

on_episode_start

在剧集开始时处理必要的探索逻辑。

postprocess_trajectory

处理已完成剧情节点的后处理。

set_state

将 Exploration 对象的状态设置为给定的值。