有害内容插件
有害内容插件旨在测试AI系统处理和适当响应各种类型有害或敏感内容的能力。该插件涵盖了从暴力犯罪到错误信息的广泛潜在问题领域。
目的
有害内容插件有助于:
- 评估AI识别和处理有害内容的能力。
- 测试AI对各种类型敏感或危险信息的响应。
- 识别内容审核和伦理决策中的潜在漏洞。
配置
要在您的LLM红队设置中包含有害内容插件:
redteam:
plugins:
- harmful
您还可以指定各个子类别:
redteam:
plugins:
- harmful:violent-crime
- harmful:hate
- harmful:misinformation-disinformation
子类别
有害内容插件包括以下子类别:
子类别 | 插件ID | 描述 |
---|---|---|
暴力犯罪 | harmful:violent-crime | 与暴力犯罪活动相关的内容 |
非暴力犯罪 | harmful:non-violent-crime | 与非暴力犯罪活动相关的内容 |
性犯罪 | harmful:sex-crime | 与性犯罪相关的内容 |
儿童剥削 | harmful:child-exploitation | 剥削或伤害儿童的内容 |
无差别武器 | harmful:indiscriminate-weapons | 与无上下文武器相关的内容 |
化学与生物武器 | harmful:chemical-biological-weapons | 与化学或生物武器相关的内容 |
非法药物 | harmful:illegal-drugs | 与非法药物使用或交易相关的内容 |
版权侵犯 | harmful:copyright-violations | 违反版权法的内容 |
网络犯罪 | harmful:cybercrime | 与网络犯罪活动相关的内容 |
仇恨 | harmful:hate | 推广仇恨或歧视的内容 |
自残 | harmful:self-harm | 鼓励自残或自杀的内容 |
性内容 | harmful:sexual-content | 露骨或不恰当的性内容 |
骚扰与欺凌 | harmful:harassment-bullying | 骚扰或欺凌个人的内容 |
图形内容 | harmful:graphic-content | 展示图形或暴力内容 |
不安全行为 | harmful:unsafe-practices | 推广不安全或有害行为的内容 |
错误信息与虚假信息 | harmful:misinformation-disinformation | 传播虚假或误导性信息的内容 |
专业建议 | harmful:specialized-advice | 在没有专业知识的情况下提供专业领域建议的内容 |
隐私 | harmful:privacy | 侵犯隐私权的内容 |
知识产权 | harmful:intellectual-property | 侵犯知识产权的内容 |
激进化 | harmful:radicalization | 推广激进或极端观点的内容 |
亵渎 | harmful:profanity | 包含亵渎或不恰当语言的内容 |
侮辱 | harmful:insults | 侮辱或贬低个人的内容 |