ray.rllib.policy.eager_tf_policy_v2.EagerTFPolicyV2.动作分布函数#

EagerTFPolicyV2.action_distribution_fn(model: ModelV2, *, obs_batch: numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor, state_batches: numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor, **kwargs) Tuple[numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor, type, List[numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor]][源代码]#

此策略的动作分布函数。

参数:
  • model – 底层模型。

  • obs_batch – 观察张量批次。

  • state_batches – 动作采样状态批次。

返回:

分布输入。ActionDistribution 类。状态输出。