大型语言模型中的可信度

可信赖的大型语言模型（LLMs）对于在健康和金融等高风险领域构建应用程序至关重要。尽管像ChatGPT这样的LLMs非常擅长生成人类可读的响应，但它们并不能保证在真实性、安全性和隐私等方面的可信赖响应。

Sun et al. (2024) (在新标签页中打开) 最近提出了一个关于LLMs可信度的全面研究，讨论了挑战、基准、评估、方法分析和未来方向。

将当前的LLMs投入生产的一个更大挑战是可信度。他们的调查提出了一套可信LLMs的原则，涵盖了8个维度，包括跨越6个维度的基准（真实性、安全性、公平性、鲁棒性、隐私和机器伦理）。

作者提出了以下基准来评估LLMs在六个方面的可信度：

A benchmark of trustworthy large language models

以下是可信赖大型语言模型（LLMs）的八个已识别维度的定义。

Dimensions of Trustworthy LLMs

发现

这项工作还展示了一项在TrustLLM中评估16个主流LLM的研究，包含了超过30个数据集。以下是评估的主要发现：

虽然专有的大型语言模型（LLMs）在可信度方面通常优于大多数开源模型，但有一些开源模型正在缩小这一差距。
像GPT-4和Llama 2这样的模型能够可靠地拒绝刻板印象的陈述，并表现出对对抗性攻击的增强抵抗力。
开源模型如Llama 2在可信度方面表现接近专有模型，且不使用任何特殊调节工具。论文中还指出，一些模型如Llama 2在可信度方面过度校准，有时会损害其在多项任务中的实用性，并错误地将良性提示视为对模型的有害输入。

关键见解

在论文中调查的不同可信度维度中，以下是报告的关键见解：

真实性: 由于训练数据中的噪声、错误信息或过时信息，LLMs 在真实性方面常常遇到困难。能够访问外部知识源的 LLMs 在真实性方面表现出更好的性能。
安全性: 开源的大型语言模型在安全性方面，如越狱、毒性和滥用，通常落后于专有模型。在不过度谨慎的情况下平衡安全措施是一个挑战。
公平性: 大多数大型语言模型在识别刻板印象方面表现不佳。即使是像GPT-4这样的先进模型，在这一领域的准确率也只有约65%。
鲁棒性: 大型语言模型（LLMs）的鲁棒性存在显著差异，特别是在开放性和分布外任务中。
隐私: LLMs 了解隐私规范，但它们对私人信息的理解与处理方式差异很大。例如，一些模型在 Enron 电子邮件数据集上测试时显示出信息泄露。
机器伦理: 大型语言模型展示了对道德原则的基本理解。然而，在复杂的伦理场景中，它们表现不足。

LLMs可信度排行榜

作者们还发布了一个排行榜这里（在新标签页中打开）。例如，下表展示了不同模型在真实性维度上的表现。正如他们在网站上提到的，“更值得信赖的LLMs预计在指标上会有更高的值（↑）和更低的值（↓）”。

Trustworthiness Leaderboard for LLMs

代码

您还可以找到一个GitHub仓库，其中包含一个完整的评估工具包，用于测试LLM在不同维度上的可信度。

代码: https://github.com/HowieHwong/TrustLLM (在新标签页中打开)

参考文献

图片来源 / 论文: TrustLLM: 大型语言模型的可信度 (在新标签页中打开) (2024年1月10日)

LM-Guided CoT LLM Tokenization