ray.rllib.utils.exploration.curiosity.Curiosity.后处理轨迹# Curiosity.postprocess_trajectory(policy, sample_batch, tf_sess=None)[源代码]# 计算phi值(obs、obs’和预测的obs’)以及ri。 还计算正向和反向损失,并使用我们的优化器在提供的批次上更新好奇心模块。