跳到主要内容

大型语言模型的可信度

在健康和金融等高风险领域构建应用程序时,可信度高的大型语言模型(LLMs)至关重要。虽然像ChatGPT这样的LLMs在生成人类可读的响应方面非常有能力,但它们并不能保证在诸如真实性、安全性和隐私等维度上提供可信赖的响应。

Sun等人(2024)最近提出了一项关于LLMs可信度的综合研究,讨论了挑战、基准、评估、方法分析以及未来方向。

将当前的LLMs投入生产的一个更大的挑战是可信度。他们的调查提出了一组涵盖8个维度的可信度LLMs原则,其中包括跨越6个维度的基准(真实性、安全性、公平性、鲁棒性、隐私和机器伦理)。

作者提出了以下基准,用于评估LLMs在六个方面的可信度:

TRUSTLLM

以下是确定的八个可信度LLMs维度的定义。

TRUSTLLM2

研究结果

这项工作还展示了一项在TrustLLM中评估了16个主流LLMs的研究,涵盖了30多个数据集。以下是评估的主要发现:

  • 尽管专有LLMs在可信度方面通常优于大多数开源对手,但有一些开源模型正在缩小差距。
  • 像GPT-4和Llama 2这样的模型可以可靠地拒绝陈词滥调,并显示出对敌对攻击的增强抵抗力。
  • Llama 2等开源模型在可信度方面的表现接近专有模型,而不使用任何特殊的调节工具。论文中还指出,一些模型,如Llama 2,在某些情况下过度校准以至于牺牲了它们在几项任务上的效用,并错误地将良性提示视为对模型有害的输入。

主要见解

在论文中调查的不同可信度维度中,以下是报告的主要见解:

  • 真实性:由于训练数据中的噪声、错误信息或过时信息,LLMs经常在真实性方面遇到困难。具有外部知识来源的LLMs在真实性方面表现更好。

  • 安全性:开源LLMs在监狱突破、毒性和滥用等安全方面通常落后于专有模型。在不过度谨慎的情况下平衡安全措施是一个挑战。

  • 公平性:大多数LLMs在识别陈词滥调方面表现不佳。即使像GPT-4这样的先进模型在这一领域的准确率也只有约65%。

  • 鲁棒性:LLMs的鲁棒性存在显著的变化,特别是在开放性和超出分布的任务中。

  • 隐私:LLMs了解隐私规范,但它们对私人信息的理解和处理差异很大。例如,一些模型在Enron电子邮件数据集上测试时显示了信息泄霏。

  • 机器伦理:LLMs表现出对道德原则的基本理解。然而,在复杂的伦理场景中,它们表现不佳。

LLMs可信度排行榜

作者还在这里发布了一个排行榜。例如,下表显示了不同模型在真实性维度上的衡量。正如在他们的网站上所提到的,“更可信赖的LLMs预计在↑指标上具有更高的价值,而在↓指标上具有更低的价值”。

TRUSTLLM3

代码

您还可以在GitHub存储库中找到一个完整的评估工具包,用于跨不同维度测试LLMs的可信度。

代码:https://github.com/HowieHwong/TrustLLM

参考文献

图片来源/论文:TrustLLM: Trustworthiness in Large Language Models(2024年1月10日)