ray.rllib.algorithms.algorithm.Algorithm.step# Algorithm.step() → Dict[源代码]# 实现主 Algorithm.train() 逻辑。 执行单个训练步骤需要 n 次尝试。在此过程中捕获由工作器故障引起的 RayErrors。在 n 次尝试后,优雅地失败。 如果你想自己处理工作失败,请在你的算法子类中重写此方法。否则,只需重写 training_step() 来实现核心算法逻辑。 返回: 包含采样、训练以及(如果需要)评估的统计信息/信息的 results 字典。