如何评估摘要任务
在这个笔记本中,我们将通过一个简单的示例探讨抽象摘要任务的评估技术。我们将探讨传统的评估方法,如ROUGE和BERTScore,并展示一种更新颖的方法,即使用LLMs作为评估器。
评估摘要质量是一个耗时的过程,因为它涉及不同的质量指标,如连贯性、简洁性、可读性和内容。传统的自动评估指标,如ROUGE
和BERTScore
等,是具体而可靠的,但它们可能与摘要的实际质量关联不强。它们与人类判断的相关性相对较低,特别是对于开放式生成任务(Liu等,2023)。在需要依赖人类评估、用户反馈或基于模型的指标的情况下,需要警惕潜在的偏见。虽然人类判断提供了宝贵的见解,但往往不具备可扩展性,并且可能成本过高。
除了这些传统指标之外,我们展示了一种方法(G-Eval),它利用大型语言模型(LLMs)作为一种新颖的、无参考的度量标准,用于评估抽象摘要。在这种情况下,我们使用gpt-4
来评分候选输出。gpt-4
已经有效地学习了一种语言质量的内部模型,使其能够区分流畅、连贯的文本和低质量的文本。利用这种内部评分机制,可以自动评估LLM生成的新候选输出。
设置
# 安装评估所需的必要软件包
# ROUGE:使用ROUGE指标进行评估
# bert_score: 用于使用BERTScore进行评估
# OpenAI:与OpenAI的API进行交互
!pip install rouge --quiet
!pip install bert_score --quiet
!pip install openai --quiet