AutoDefense - 使用 AutoGen 防御越狱攻击March 11, 2024 · 11 min readYifan ZengPhD student at Oregon State UniversityYiran WuPhD student at Pennsylvania State University TL;DR 我们提出了 AutoDefense,一个使用 AutoGen 的多代理防御框架,用于保护 LLMs 免受越狱攻击。 AutoDefense 使用一种响应过滤机制,由专门的 LLM 代理协作分析可能有害的响应。 实验证明,我们的三个代理(包括意图分析器、提示分析器和评判器)与 LLaMA-2-13B 的防御机构有效降低了越狱攻击成功率,同时在正常用户请求上保持了低误报率。 什么是越狱攻击?