ray.rllib.policy.torch_policy_v2.TorchPolicyV2.get_探索_状态#

TorchPolicyV2.get_exploration_state() Dict[str, numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor]#

返回此策略的探索组件的状态。

返回:

关于 self.exploration 对象的可序列化信息。