ray.rllib.policy.Policy.get_state# Policy.get_state() → Dict[str, numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor | dict | tuple][源代码]# 返回此策略的当前整个状态。 注意:不要与 RNN 模型的内部状态混淆。状态包括模型权重、优化器权重、探索组件的状态,以及全局变量,如采样时间步长。 注意,状态可能包含对原始变量的引用。这意味着在对其进行变异之前,您可能需要使用 deepcopy() 复制状态。 返回: 序列化的本地状态。