ray.rllib.algorithms.algorithm.Algorithm.train#
- Algorithm.train()#
运行一次训练的逻辑迭代。
在内部调用
step()
。子类应重写step()
以返回结果。此方法自动填充结果中的以下字段:done
(bool): 训练已终止。仅在未提供时填充。time_this_iter_s
(float): 此迭代运行所花费的时间,单位为秒。可以覆盖此值以覆盖系统计算的时间差。time_total_s
(float): 该实验累计的总时间,单位为秒。training_iteration
(int): 这是训练迭代的索引,例如调用 train()。在调用step()
之后,这个值会递增。pid
(str): 训练过程的pid。date
(str): 结果处理时的格式化日期。timestamp
(str): 结果处理时的UNIX时间戳。这可能会被覆盖。hostname
(str): 托管训练过程的机器的主机名。node_ip
(str): 托管训练过程的机器的节点IP。- 返回:
一个描述训练进度的字典。