ray.rllib.policy.policy.Policy.get_探索_状态#

Policy.get_exploration_state() Dict[str, numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor][源代码]#

返回此策略的探索组件的状态。

返回:

关于 self.exploration 对象的可序列化信息。