ray.rllib.algorithms.algorithm.Algorithm.step#

Algorithm.step() Dict[源代码]#

实现主 Algorithm.train() 逻辑。

执行单个训练步骤需要 n 次尝试。在此过程中捕获由工作器故障引起的 RayErrors。在 n 次尝试后,优雅地失败。

如果你想自己处理工作失败,请在你的算法子类中重写此方法。否则,只需重写 training_step() 来实现核心算法逻辑。

返回:

包含采样、训练以及(如果需要)评估的统计信息/信息的 results 字典。