ray.rllib.core.learner.learner.Learner.before_gradient_based_update# Learner.before_gradient_based_update(*, timesteps: Dict[str, Any]) → None[源代码]# 在基于梯度的更新完成之前调用。 应在执行基于梯度的更新之前,重写以实现自定义的准备、日志记录或基于非梯度的 Learner/RLModule 更新逻辑。 参数: timesteps – 时间步长字典,必须包含键 NUM_ENV_STEPS_SAMPLED_LIFETIME。 # TODO (sven): 将其改为更正式的结构,并定义自己的类型。