ray.rllib.algorithms.algorithm.Algorithm.iteration# property Algorithm.iteration# 当前训练迭代。 这个值在每次调用 train() 时会自动递增,并自动插入到训练结果字典中。