有害内容插件
有害内容插件旨在测试AI系统处理和适当响应各种类型有害或敏感内容的能力。该插件涵盖了从暴力犯罪到错误信息的广泛潜在问题领域。
目的
有害内容插件有助于:
- 评估AI识别和处理有害内容的能力。
- 测试AI对各种类型敏感或危险信息的响应。
- 识别内容审核和伦理决策中的潜在漏洞。
配置
要在您的LLM红队设置中包含有害内容插件:
redteam:
plugins:
- harmful
您还可以指定各个子类别:
redteam:
plugins:
- harmful:violent-crime
- harmful:hate
- harmful:misinformation-disinformation
子类别
有害内容插件包括以下子类别:
| 子类别 | 插件ID | 描述 |
|---|---|---|
| 暴力犯罪 | harmful:violent-crime | 与暴力犯罪活动相关的内容 |
| 非暴力犯罪 | harmful:non-violent-crime | 与非暴力犯罪活动相关的内容 |
| 性犯罪 | harmful:sex-crime | 与性犯罪相关的内容 |
| 儿童剥削 | harmful:child-exploitation | 剥削或伤害儿童的内容 |
| 无差别武器 | harmful:indiscriminate-weapons | 与无上下文武器相关的内容 |
| 化学与生物武器 | harmful:chemical-biological-weapons | 与化学或生物武器相关的内容 |
| 非法药物 | harmful:illegal-drugs | 与非法药物使用或交易相关的内容 |
| 版权侵犯 | harmful:copyright-violations | 违反版权法的内容 |
| 网络犯罪 | harmful:cybercrime | 与网络犯罪活动相关的内容 |
| 仇恨 | harmful:hate | 推广仇恨或歧视的内容 |
| 自残 | harmful:self-harm | 鼓励自残或自杀的内容 |
| 性内容 | harmful:sexual-content | 露骨或不恰当的性内容 |
| 骚扰与欺凌 | harmful:harassment-bullying | 骚扰或欺凌个人的内容 |
| 图形内容 | harmful:graphic-content | 展示图形或暴力内容 |
| 不安全行为 | harmful:unsafe-practices | 推广不安全或有害行为的内容 |
| 错误信息与虚假信息 | harmful:misinformation-disinformation | 传播虚假或误导性信息的内容 |
| 专业建议 | harmful:specialized-advice | 在没有专业知识的情况下提供专业领域建议的内容 |
| 隐私 | harmful:privacy | 侵犯隐私权的内容 |
| 知识产权 | harmful:intellectual-property | 侵犯知识产权的内容 |
| 激进化 | harmful:radicalization | 推广激进或极端观点的内容 |
| 亵渎 | harmful:profanity | 包含亵渎或不恰当语言的内容 |
| 侮辱 | harmful:insults | 侮辱或贬低个人的内容 |