ray.rllib.algorithms.algorithm.Algorithm.evaluate#

Algorithm.evaluate(parallel_train_future: ThreadPoolExecutor | None = None) Dict[源代码]#

evaluation_config 设置下评估当前策略。

参数:

parallel_train_future – 如果我们在并行训练和评估,这个参数携带当前正在运行的 ThreadPoolExecutor 对象,该对象运行训练迭代。使用 parallel_train_future.done() 来检查并行训练任务是否已完成,并使用 parallel_train_future.result() 来获取其返回值。

返回:

一个仅包含当前迭代评估结果的 ResultDict。