生成式AI中的偏见与毒性预防
当被要求为200个美国名字生成推荐信时,ChatGPT生成的内容基于感知性别使用了显著不同的语言——即使提示设计为中性。
在政治讨论中,ChatGPT回应显示出对美国、英国和巴西特定政党的显著且系统的偏见。
而在多模态方面,OpenAI的Dall-E在提示生成抢劫犯图像时,更倾向于生成黑人图像。
还有许多其他研究发现LLM在种族、宗教、年龄和政治观点方面表现出偏见。
随着AI系统在医疗、金融和教育等高风险领域的普及,解决这些偏见对于构建公平可信的应用程序至关重要。
生成式AI中的偏见:基础知识
AI偏见表现为:
- 职业或特质中的性别刻板印象
- 种族刻板印象或偏见
- 政治偏好
- 偏爱主导文化视角
- 对年龄群体的不公平描述
- 基于感知经济状况的假设
这些偏见可能造成实际伤害。一个有偏见的招聘工具可能会不公平地偏好男性担任领导职位。一个客户服务聊天机器人可能会对某些文化群体给出更差的回应。
由于语言复杂性和模型规模,发现和测量生成式AI偏见很困难。研究人员使用的方法包括:
- 检查词语关联
- 比较不同人群的表现
- 使用旨在检测特定偏见的对抗性数据集
- 人工审查输出结果
修复生成式AI偏见需要在数据选择、系统设计和全面测试方面进行工作。模型和应用层面都需要改进。
随着“负责任AI”作为一个领域逐渐成熟,创建更公平的模型和应用仍然是一个挑战。
生成式AI中的偏见为何重要?
有偏见的LLM可能产生深远的影响。当部署在招聘或贷款审批等高风险应用中时,这些模型可能会延续并放大现有的社会不平等。
欧盟的AI法案将许多LLM应用归类为高风险,要求采取偏见缓解措施。公司可能因歧视性AI系统面临罚款和声誉损害。监管机构可能越来越要求主动的缓解措施。
解决偏见也是一个经济上的迫切需求:
- 市场覆盖:有偏见的模型可能会疏远用户群体。
- 创新:多样化的视角能带来更具创意和广泛适用的AI解决方案。
- 人才保留:AI的使用在一些公司(尤其是科技公司)中是一个热门话题,员工更愿意留在致力于道德AI实践的公司。
随着LLM处理越来越敏感的任务,用户需要确信这些系统不会歧视他们。
从长远来看,这种信任对于AI在医疗、金融和教育等重要但敏感领域的采用至关重要。
如何缓解大型语言模型中的偏见
大多数生成式AI和LLM开发者使用预训练模型,因此我们将主要关注在应用层面可以采取的步骤。
具体方法如下:
1. 多样化数据
平衡少数样本提示中的代表性。包括来自不同人群的示例,以提高模型的泛化能力。
对于RAG系统,多样化你的知识库。从涵盖不同视角和文化的多种来源中提取,以确保更包容的输出。
2. 实施偏见检测
使用反事实数据增强创建属性如性别或种族翻转的变体,帮助识别群体特定的偏见。
在开发前部署偏见检测工具。使用情感分析和命名实体识别揭示偏斜的描述。
红队你的应用,以检测广泛输入范围内的故障模式。有一些工具(如Promptfoo)可以帮助你自动化成千上万的输入和输出。
设置护栏以捕捉有偏见的输出。这些通常作为API提供,可以分类输入或输出,并阻止、修改或标记它们以供人工审查。
3. 微调模型
并非每个人都在微调自己的模型,但如果你是,那么改进你精心策划的训练数据集是重点。 如果你使用迁移学习来使模型适应特定领域,你可能会减少不相关的偏见。然而,即使在对精心策划的数据集进行微调后,预训练模型中的偏见仍可能持续存在,这种现象被称为"偏见转移"。
一般来说,要减少已知的偏见,你可以采用去偏见词嵌入或对抗性去偏见等技术。
需要注意的是,仅仅对目标数据集进行去偏见可能不足以消除转移的偏见,尤其是在固定特征迁移学习的场景中。
在微调时,考虑:
- 预训练模型中潜在的偏见
- 你使用的迁移学习技术(固定特征 vs. 全网络)
- 最终,对微调模型进行彻底评估(例如使用有害偏见红队插件)是必要的。
4. 融入逻辑推理
将结构化思维融入提示中。引导模型通过链式思维推理逐步分解问题。
提示模型逻辑评估主张,考虑证据和反驳论点。这减少了对刻板印象或无根据的概括的依赖。
实施防护措施以防止逻辑错误或偏见的结论。使用事实核查提示或知识库来确保主张有根据。
5. 全面评估
使用公平性指标来衡量不同群体的表现,而不仅仅是准确性。这可以通过使用分类器评分器来实现,使用HuggingFace上提供的众多模型之一。
在多种情境和人口统计中进行测试。你可以自己构建测试用例,或者使用自动化红队测试来压力测试你的系统。这些自动化工具生成成千上万的对抗性输入,以大规模发现边缘情况和意外偏见。
你应该冻结你的模型,以确保更新不会引入意外行为。
但总的来说,偏见缓解不是一次性的事情。新的越狱技术不断被发现,因此根据你的风险承受能力,定期运行这些测试可能是个好主意。
去偏见生成式AI的持续挑战
去偏见生成式AI是一个持续的挑战,可能不会很快得到解决。关键问题包括:
性能权衡:减少偏见通常会影响模型能力。过滤训练数据或限制输出往往会降低整体性能。
交叉性:大多数去偏见努力针对单一属性,如性别或种族。解决复合偏见,例如那些特别影响黑人女性的偏见,需要更复杂的评估方法。
语言和规范的演变:社会规范变化迅速,曾经被认为是中性的词语可能会变得冒犯。
其他持续挑战:
- 偏见放大:LLM可以放大训练数据中的微妙偏见。
- 领域适应:通用去偏见技术可能在医学或法律等专业领域失败。
- 文化背景:偏见感知在不同文化之间有所不同,复杂化了全球LLM部署。
- 可解释性:确定偏见输出的来源仍然困难,阻碍了针对性的修复。
解决这些问题需要AI研究人员、伦理学家和领域专家之间的合作。进展可能通过技术创新和深思熟虑的治理来实现。
前进的道路
研究正在进行中,但有几个有希望的方向:
因果建模:帮助LLM理解超越表面相关性的关系,可能减少不公平的关联。
联邦学习:在保护隐私的同时,实现对多样化、分散数据集的训练。
对抗性去偏见:在训练过程中主动去除偏见特征,尽管扩展仍然具有挑战性。
最重要的是,对模型和应用的评估(通常称为“评估”或“红队测试”)对于希望制定策略来识别和缓解其LLM应用中偏见的团队至关重要。
如果你有兴趣了解更多关于检测生成式AI应用中的偏见,我们已经为你准备好了。请联系我们或查看我们的LLM红队测试指南以开始。