Register for Ray Summit 2024 with keynotes from Mira Murati, Marc Andreessen, and Anastasis Germanidis.

ray.rllib.utils.exploration.exploration.Exploration.get_探索_动作#

Exploration.get_exploration_action(*, action_distribution: ActionDistribution, timestep: numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor | int, explore: bool = True)[源代码]#

返回一个（可能的）探索性动作及其对数似然。

给定模型的logits输出和动作分布，返回一个探索性动作。

参数:

action_distribution – 在创建探索动作时使用的实例化的 ActionDistribution 对象。
timestep – 当前的采样时间步。在TF图模式下，它可以是一个张量，否则是一个整数。
explore – True: “正常” 探索行为。False: 抑制所有探索行为并返回一个确定性的动作。

返回:

一个元组，包含1) 选择的探索动作或从图中获取探索动作的tf-op，以及2) 探索动作的对数似然。

优云智算