Register for Ray Summit 2024 with keynotes from Mira Murati, Marc Andreessen, and Anastasis Germanidis.

ray.rllib.algorithms.algorithm.Algorithm.step#

Algorithm.step() → Dict[源代码]#

实现主 Algorithm.train() 逻辑。

执行单个训练步骤需要 n 次尝试。在此过程中捕获由工作器故障引起的 RayErrors。在 n 次尝试后，优雅地失败。

如果你想自己处理工作失败，请在你的算法子类中重写此方法。否则，只需重写 training_step() 来实现核心算法逻辑。

返回:: 包含采样、训练以及（如果需要）评估的统计信息/信息的 results 字典。

优云智算