ray.rllib.utils.exploration.exploration.Exploration.get_探索_动作#
- Exploration.get_exploration_action(*, action_distribution: ActionDistribution, timestep: numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor | int, explore: bool = True)[源代码]#
返回一个(可能的)探索性动作及其对数似然。
给定模型的logits输出和动作分布,返回一个探索性动作。
- 参数:
action_distribution – 在创建探索动作时使用的实例化的 ActionDistribution 对象。
timestep – 当前的采样时间步。在TF图模式下,它可以是一个张量,否则是一个整数。
explore – True: “正常” 探索行为。False: 抑制所有探索行为并返回一个确定性的动作。
- 返回:
一个元组,包含1) 选择的探索动作或从图中获取探索动作的tf-op,以及2) 探索动作的对数似然。