ray.rllib.utils.exploration.exploration.Exploration.get_探索_动作#

Exploration.get_exploration_action(*, action_distribution: ActionDistribution, timestep: numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor | int, explore: bool = True)[源代码]#

返回一个(可能的)探索性动作及其对数似然。

给定模型的logits输出和动作分布,返回一个探索性动作。

参数:
  • action_distribution – 在创建探索动作时使用的实例化的 ActionDistribution 对象。

  • timestep – 当前的采样时间步。在TF图模式下,它可以是一个张量,否则是一个整数。

  • explore – True: “正常” 探索行为。False: 抑制所有探索行为并返回一个确定性的动作。

返回:

一个元组,包含1) 选择的探索动作或从图中获取探索动作的tf-op,以及2) 探索动作的对数似然。