ray.rllib.policy.policy.Policy.get_state#

Policy.get_state() Dict[str, numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor | dict | tuple][源代码]#

返回此策略的当前整个状态。

注意:不要与 RNN 模型的内部状态混淆。状态包括模型权重、优化器权重、探索组件的状态,以及全局变量,如采样时间步长。

注意,状态可能包含对原始变量的引用。这意味着在对其进行变异之前,您可能需要使用 deepcopy() 复制状态。

返回:

序列化的本地状态。