Trustworthiness in LLMs

大型语言模型中的可信度

可信赖的大型语言模型(LLMs)对于在健康和金融等高风险领域构建应用程序至关重要。尽管像ChatGPT这样的LLMs非常擅长生成人类可读的响应,但它们并不能保证在真实性、安全性和隐私等方面的可信赖响应。

Sun et al. (2024) (在新标签页中打开) 最近提出了一个关于LLMs可信度的全面研究,讨论了挑战、基准、评估、方法分析和未来方向。

将当前的LLMs投入生产的一个更大挑战是可信度。他们的调查提出了一套可信LLMs的原则,涵盖了8个维度,包括跨越6个维度的基准(真实性、安全性、公平性、鲁棒性、隐私和机器伦理)。

作者提出了以下基准来评估LLMs在六个方面的可信度:

A benchmark of trustworthy large language models

以下是可信赖大型语言模型(LLMs)的八个已识别维度的定义。

Dimensions of Trustworthy LLMs

发现

这项工作还展示了一项在TrustLLM中评估16个主流LLM的研究,包含了超过30个数据集。以下是评估的主要发现:

  • 虽然专有的大型语言模型(LLMs)在可信度方面通常优于大多数开源模型,但有一些开源模型正在缩小这一差距。
  • 像GPT-4和Llama 2这样的模型能够可靠地拒绝刻板印象的陈述,并表现出对对抗性攻击的增强抵抗力。
  • 开源模型如Llama 2在可信度方面表现接近专有模型,且不使用任何特殊调节工具。论文中还指出,一些模型如Llama 2在可信度方面过度校准,有时会损害其在多项任务中的实用性,并错误地将良性提示视为对模型的有害输入。

关键见解

在论文中调查的不同可信度维度中,以下是报告的关键见解:

  • 真实性: 由于训练数据中的噪声、错误信息或过时信息,LLMs 在真实性方面常常遇到困难。能够访问外部知识源的 LLMs 在真实性方面表现出更好的性能。

  • 安全性: 开源的大型语言模型在安全性方面,如越狱、毒性和滥用,通常落后于专有模型。在不过度谨慎的情况下平衡安全措施是一个挑战。

  • 公平性: 大多数大型语言模型在识别刻板印象方面表现不佳。即使是像GPT-4这样的先进模型,在这一领域的准确率也只有约65%。

  • 鲁棒性: 大型语言模型(LLMs)的鲁棒性存在显著差异,特别是在开放性和分布外任务中。

  • 隐私: LLMs 了解隐私规范,但它们对私人信息的理解与处理方式差异很大。例如,一些模型在 Enron 电子邮件数据集上测试时显示出信息泄露。

  • 机器伦理: 大型语言模型展示了对道德原则的基本理解。然而,在复杂的伦理场景中,它们表现不足。

LLMs可信度排行榜

作者们还发布了一个排行榜这里(在新标签页中打开)。例如,下表展示了不同模型在真实性维度上的表现。正如他们在网站上提到的,“更值得信赖的LLMs预计在指标上会有更高的值(↑)和更低的值(↓)”。

Trustworthiness Leaderboard for LLMs

代码

您还可以找到一个GitHub仓库,其中包含一个完整的评估工具包,用于测试LLM在不同维度上的可信度。

代码: https://github.com/HowieHwong/TrustLLM (在新标签页中打开)

参考文献

图片来源 / 论文: TrustLLM: 大型语言模型的可信度 (在新标签页中打开) (2024年1月10日)