ray.rllib.algorithms.algorithm.Algorithm.train#

Algorithm.train()#

运行一次训练的逻辑迭代。

在内部调用 step()。子类应重写 step() 以返回结果。此方法自动填充结果中的以下字段：

done (bool): 训练已终止。仅在未提供时填充。

time_this_iter_s (float): 此迭代运行所花费的时间，单位为秒。可以覆盖此值以覆盖系统计算的时间差。

time_total_s (float): 该实验累计的总时间，单位为秒。

training_iteration (int): 这是训练迭代的索引，例如调用 train()。在调用 step() 之后，这个值会递增。

pid (str): 训练过程的pid。

date (str): 结果处理时的格式化日期。

timestamp (str): 结果处理时的UNIX时间戳。这可能会被覆盖。

hostname (str): 托管训练过程的机器的主机名。

node_ip (str): 托管训练过程的机器的节点IP。

返回:: 一个描述训练进度的字典。