ray.rllib.policy.Policy.get_state#

返回此策略的当前整个状态。

注意：不要与 RNN 模型的内部状态混淆。状态包括模型权重、优化器权重、探索组件的状态，以及全局变量，如采样时间步长。

注意，状态可能包含对原始变量的引用。这意味着在对其进行变异之前，您可能需要使用 deepcopy() 复制状态。