生成式AI中的偏见与毒性预防

October 8, 2024

当被要求为200个美国名字生成推荐信时，ChatGPT生成的内容基于感知性别使用了显著不同的语言——即使提示设计为中性。

在政治讨论中，ChatGPT回应显示出对美国、英国和巴西特定政党的显著且系统的偏见。

而在多模态方面，OpenAI的Dall-E在提示生成抢劫犯图像时，更倾向于生成黑人图像。

还有许多其他研究发现LLM在种族、宗教、年龄和政治观点方面表现出偏见。

随着AI系统在医疗、金融和教育等高风险领域的普及，解决这些偏见对于构建公平可信的应用程序至关重要。

ai biases

生成式AI中的偏见：基础知识

AI偏见表现为：

职业或特质中的性别刻板印象
种族刻板印象或偏见
政治偏好
偏爱主导文化视角
对年龄群体的不公平描述
基于感知经济状况的假设

这些偏见可能造成实际伤害。一个有偏见的招聘工具可能会不公平地偏好男性担任领导职位。一个客户服务聊天机器人可能会对某些文化群体给出更差的回应。

由于语言复杂性和模型规模，发现和测量生成式AI偏见很困难。研究人员使用的方法包括：

检查词语关联
比较不同人群的表现
使用旨在检测特定偏见的对抗性数据集
人工审查输出结果

修复生成式AI偏见需要在数据选择、系统设计和全面测试方面进行工作。模型和应用层面都需要改进。

随着“负责任AI”作为一个领域逐渐成熟，创建更公平的模型和应用仍然是一个挑战。

生成式AI中的偏见为何重要？

有偏见的LLM可能产生深远的影响。当部署在招聘或贷款审批等高风险应用中时，这些模型可能会延续并放大现有的社会不平等。

欧盟的AI法案将许多LLM应用归类为高风险，要求采取偏见缓解措施。公司可能因歧视性AI系统面临罚款和声誉损害。监管机构可能越来越要求主动的缓解措施。

解决偏见也是一个经济上的迫切需求：

市场覆盖：有偏见的模型可能会疏远用户群体。
创新：多样化的视角能带来更具创意和广泛适用的AI解决方案。
人才保留：AI的使用在一些公司（尤其是科技公司）中是一个热门话题，员工更愿意留在致力于道德AI实践的公司。

随着LLM处理越来越敏感的任务，用户需要确信这些系统不会歧视他们。

从长远来看，这种信任对于AI在医疗、金融和教育等重要但敏感领域的采用至关重要。

如何缓解大型语言模型中的偏见

大多数生成式AI和LLM开发者使用预训练模型，因此我们将主要关注在应用层面可以采取的步骤。

bias mitigation in LLMs

具体方法如下：

1. 多样化数据

平衡少数样本提示中的代表性。包括来自不同人群的示例，以提高模型的泛化能力。

对于RAG系统，多样化你的知识库。从涵盖不同视角和文化的多种来源中提取，以确保更包容的输出。

2. 实施偏见检测

使用反事实数据增强创建属性如性别或种族翻转的变体，帮助识别群体特定的偏见。

在开发前部署偏见检测工具。使用情感分析和命名实体识别揭示偏斜的描述。

红队你的应用，以检测广泛输入范围内的故障模式。有一些工具（如Promptfoo）可以帮助你自动化成千上万的输入和输出。

设置护栏以捕捉有偏见的输出。这些通常作为API提供，可以分类输入或输出，并阻止、修改或标记它们以供人工审查。

3. 微调模型

并非每个人都在微调自己的模型，但如果你是，那么改进你精心策划的训练数据集是重点。如果你使用迁移学习来使模型适应特定领域，你可能会减少不相关的偏见。然而，即使在对精心策划的数据集进行微调后，预训练模型中的偏见仍可能持续存在，这种现象被称为"偏见转移"。

一般来说，要减少已知的偏见，你可以采用去偏见词嵌入或对抗性去偏见等技术。

需要注意的是，仅仅对目标数据集进行去偏见可能不足以消除转移的偏见，尤其是在固定特征迁移学习的场景中。

在微调时，考虑：

预训练模型中潜在的偏见
你使用的迁移学习技术（固定特征 vs. 全网络）
最终，对微调模型进行彻底评估（例如使用有害偏见红队插件）是必要的。

4. 融入逻辑推理

将结构化思维融入提示中。引导模型通过链式思维推理逐步分解问题。

提示模型逻辑评估主张，考虑证据和反驳论点。这减少了对刻板印象或无根据的概括的依赖。

实施防护措施以防止逻辑错误或偏见的结论。使用事实核查提示或知识库来确保主张有根据。

5. 全面评估

使用公平性指标来衡量不同群体的表现，而不仅仅是准确性。这可以通过使用分类器评分器来实现，使用HuggingFace上提供的众多模型之一。

在多种情境和人口统计中进行测试。你可以自己构建测试用例，或者使用自动化红队测试来压力测试你的系统。这些自动化工具生成成千上万的对抗性输入，以大规模发现边缘情况和意外偏见。

你应该冻结你的模型，以确保更新不会引入意外行为。

但总的来说，偏见缓解不是一次性的事情。新的越狱技术不断被发现，因此根据你的风险承受能力，定期运行这些测试可能是个好主意。

去偏见生成式AI的持续挑战

去偏见生成式AI是一个持续的挑战，可能不会很快得到解决。关键问题包括：

性能权衡：减少偏见通常会影响模型能力。过滤训练数据或限制输出往往会降低整体性能。

交叉性：大多数去偏见努力针对单一属性，如性别或种族。解决复合偏见，例如那些特别影响黑人女性的偏见，需要更复杂的评估方法。

语言和规范的演变：社会规范变化迅速，曾经被认为是中性的词语可能会变得冒犯。

其他持续挑战：

偏见放大：LLM可以放大训练数据中的微妙偏见。
领域适应：通用去偏见技术可能在医学或法律等专业领域失败。
文化背景：偏见感知在不同文化之间有所不同，复杂化了全球LLM部署。
可解释性：确定偏见输出的来源仍然困难，阻碍了针对性的修复。

解决这些问题需要AI研究人员、伦理学家和领域专家之间的合作。进展可能通过技术创新和深思熟虑的治理来实现。

前进的道路

研究正在进行中，但有几个有希望的方向：

因果建模：帮助LLM理解超越表面相关性的关系，可能减少不公平的关联。

联邦学习：在保护隐私的同时，实现对多样化、分散数据集的训练。

对抗性去偏见：在训练过程中主动去除偏见特征，尽管扩展仍然具有挑战性。

最重要的是，对模型和应用的评估（通常称为“评估”或“红队测试”）对于希望制定策略来识别和缓解其LLM应用中偏见的团队至关重要。

如果你有兴趣了解更多关于检测生成式AI应用中的偏见，我们已经为你准备好了。请联系我们或查看我们的LLM红队测试指南以开始。

生成式AI中的偏见：基础知识​

生成式AI中的偏见为何重要？​

如何缓解大型语言模型中的偏见​

1. 多样化数据​

2. 实施偏见检测​

3. 微调模型​

4. 融入逻辑推理​

5. 全面评估​

去偏见生成式AI的持续挑战​

前进的道路​