ray.rllib.policy.policy.Policy.get_探索_状态# Policy.get_exploration_state() → Dict[str, numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor][源代码]# 返回此策略的探索组件的状态。 返回: 关于 self.exploration 对象的可序列化信息。