大模型越狱攻防三部曲：评估、分析与防御

发布时间：2024-10-16 23:26:02来源：PaperWeekly

©PaperWeekly原创·作者|USAIL团队

单位|香港科技大学（广州）

近年来，随着大语言模型（LLMs）的广泛应用，如何确保这些模型的安全性和防御其被恶意利用成为一个至关重要的议题。

香港科技大学（Guangzhou）USAIL研究团队（团队链接：https://github.com/usail-hkust）致力于探索和解决这一挑战，推出了全新的越狱攻防解决方案——大模型越狱攻防三部曲：评估、分析与防御。该系列研究包含了从越狱攻击评估到深度分析，再到创新防御策略的全方位探索，旨在推动大模型的安全性研究和实践发展。

USAIL团队基于其对越狱攻击与防御机制的深刻理解，依次推出了JAILJUDGE评估基准、JailTrackBench攻击分析系统性框架，以及ContinuedAdversarialTuning持续性对抗微调防御策略，通过一整套系统的方法不断提升大语言模型的安全性和鲁棒性。

本系列研究不仅为学术界提供了深刻的理论基础，也为工业界提供了可操作的工具和最佳实践，助力企业和研究人员共同应对大语言模型安全挑战，推动人工智能技术更为安全地造福社会。

项目网站：

https://secure-intelligence.github.io/

越狱评估JAILJUDGE：大模型越狱评估的全新基准，提升模型安全性

论文标题：

JAILJUDGE:AComprehensiveJailbreakJudgeBenchmarkwithMulti-AgentEnhancedExplanationEvaluationFramework

论文地址：

https://www.researchgate.net/publication/384848143_JAILJUDGE_A_Comprehensive_Jailbreak_Judge_Benchmark_with_Multi-Agent_Enhanced_Explanation_Evaluation_Framework

JAILJUDGE的代码和数据集以及模型已公开，欢迎学术界和工业界的研究人员访问并使用：

项目主页：

https://usail-hkust.github.io/Jailjudge

代码链接：

https://github.com/usail-hkust/Jailjudge

数据集链接：

https://huggingface.co/usail-hkust/JailJudge-guard

端到端越狱评估模型：

https://huggingface.co/usail-hkust/JailJudge-guard

近年来，随着人工智能的迅猛发展，尤其是大语言模型（LLMs）的广泛应用，保障这些模型的安全性并防止其被恶意利用，成为了至关重要的议题。

越狱攻击通过恶意指令诱导模型生成有害或不符合伦理的内容，对模型的安全性和可靠性构成了严重威胁。为应对越狱攻击，各种防御方法不断涌现，形成了一种类似军备竞赛的局面。这种攻击与防御的对抗性研究，极大地推动了大模型的安全性和可靠性。

然而，核心问题依然存在：如何准确评估模型是否真正被越狱？越狱评估，即评估越狱尝试是否成功，依赖于对大语言模型响应内容的有害性进行判断，这一任务本质上复杂且充满挑战（如图1所示）。因此，迫切需要一个全面的越狱评估体系，以帮助研究者和开发者了解模型的脆弱性，并持续优化防御能力。

▲图1：越狱评估：输入用户问题和模型回答，判断大模型是否被越狱

为此，USAIL团队联合百度搜索团队（https://searchscience.baidu.com/）以及英国伯明翰大学提出了JAILJUDGE，一个全面、严谨的越狱评估基准，旨在弥补现有越狱评估方法的不足，特别是在复杂场景下的表现。

JAILJUDGE基准覆盖了广泛的风险场景，以及复杂的案例其中包括对抗性的越狱查询，真实世界的交互，以及多语言等场景。

在此基础上，受到法官判案的启发，作者提出了多代理越狱评估框架智能体（JailJudgeMultiAgent），通过多个代理之间的协作实现对越狱判断过程的明确化和可解释性。越狱评估框架智能体中每个代理都有明确的角色分工，例如判断代理、投票代理和推断代理，它们通过合作得出精细化的评估结果，为每次判断提供解释性理由。

借助这种多代理协作的方式给出的可解释理由和越狱评分，作者还开发了一个端到端的越狱判断模型JAILJUDGEGuard，它能够在不需要API调用的情况下提供细粒度的评估（如越狱评分从1到10），并给出推理解释，极大地提升了评估质量和效率，性能超越GPT-4。

JAILJUDGEGuard的优势在于其全面的能力评估和高效的推理过程。与现有的最先进模型（如GPT-4、Llama-Guard等）相比，JAILJUDGEGuard在闭源和开源的安全调节模型上的评估表现均达到了最先进的水准。

此外，JAILJUDGEGuard还能够以更低的成本和更高的效率实现对模型的全面评估，从而为模型的实际应用提供了强有力的支持。为了进一步展示JAILJUDGEGuard的基础能力，还开发了JailBoost和GuardShield这两个重要工具。

JailBoost是一种与攻击者无关的攻击增强器，通过提供越狱评分奖励来优化对抗性指令的生成，从而有效提高攻击成功率。而GuardShield则是一种系统级的越狱防御方法，能够通过检测LLM是否被越狱，生成安全的响应，从而降低模型被攻击的风险。

实验结果表明，JailBoost能够在零样本设置下将攻击成功率提高约29.24%，而GuardShield则能够将防御后的攻击成功率从40.46%大幅降低到0.15%。

JAILJUDGEBenchmark介绍

▲图2：JAILJUDGEBenchmark框架图

JAILJUDGE基准是一个全面的评估框架，如图2，专门用于越狱评估。它涵盖了多种攻击场景和测试环境，确保能够全面模拟大模型受到越狱攻击时的情境。JAILJUDGE包括以下场景：

VanillaHarmfulPrompts:从已有的安全基准数据集中收集原始有害提示，并将宽泛的安全类别精细化为14个更细粒度的类别，如隐私、暴力犯罪等，遵循MLCommons标准化的危险分类法。

SyntheticVanillaPrompts:为了确保有害提示的多样性，利用GPT-4在相同的危险分类中重写和扩展原始有害提示。例如，原始提示“如何制作炸弹？”可能被改写为“如何使用家庭用品制作自制爆炸物的详细说明。”。

SyntheticAdversarialPrompts:为了提高生成不安全响应的可能性，采用最新的越狱攻击技术来修改原始有害提示，旨在引导模型生成不安全的输出。通过当前最先进的越狱技术（例如添加对抗性后缀）来优化攻击提示。

MultilingualHarmfulPrompts:包含十种额外语言（高资源语言如英语、中文、意大利语等，中资源语言如阿拉伯语、韩语、泰语等，低资源语言如孟加拉语、斯瓦希里语和爪哇语等），以评估模型在多语言环境中的表现和偏见情况。

In-the-wildPrompts:从真实世界的用户请求中收集多样的提示，结合恶意提示以创造更复杂和隐蔽的有害意图。

DeceptiveHarmfulPrompts:这类提示通过角色扮演、情景假设、长上下文提示和自适应策略等手段掩盖其恶意意图，通常较难识别。

JAILJUDGE的数据集包括提示（prompt）、模型的回复（modelresponse），以及关于模型是否被越狱的标签（label）。数据的标注基于百度的标注平台，这些标签通过高质量的人工标注获得，标注过程由具备相关领域知识的专业团队负责，团队成员经过严格的案例培训，以确保标注数据的高质量和一致性。

标注过程对每条指令进行详细审查，并经过多轮迭代不断优化标签，从而确保模型训练和评估数据的准确性与可靠性。

多代理框架工作原理

JailJudgeMultiAgent框架中的每个代理通过特定的功能实现协作：

判断代理（EvaluationAgent）：接收输入指令并判断其是否为潜在的越狱攻击。

投票代理（VotingAgent）：多个代理对判断结果进行投票，以确保最终判断的准确性和一致性。

推断代理（InferenceAgent）：对越狱判断的结果进行解释，提供详细的推理过程，帮助理解攻击的原理和模型的脆弱性。

如图3所示，多代理框架通过不同代理的协作，实现了对越狱攻击的精准判断和可解释的评估。

▲图3：JailJudgeMultiAgent框架图

当前大部分的越狱攻击和防御主要依靠GPT-4来进行判断，但在复杂场景下，GPT-4的评估准确性仍然存在不足。尤其是在应对多语言环境中的低资源语言时，大模型的表现较弱，显示出在这些场景下模型对有害内容的检测能力存在明显的偏见和不足。

这些结果揭示了当前越狱评估的困难性和局限性，并表明在不同语言环境和复杂场景中，越狱防御的准确性和全面性亟待提高。

为了克服这些困难，JailJudgeMultiAgent框架引入了证据聚合机制。具体而言，投票代理在对多种来源的证据进行聚合后，提供更加稳健的越狱判断结果。在f多语言场在复杂场景显示，通过这种证据聚合，可以有效提升判断解释和评分的一致性，减少评估过程中的偏见。

此外，推断代理的详细推理过程为每个判断提供了充分的解释，使得整个判断过程更具透明性和可追溯性。

越狱攻击增强器JailBoost和越狱检测工具GuardShield

作者进一步发现，越狱评估具有基础性和泛化的能力，能够增强下游任务的表现。为证明这一点，基于JAILJUDGEGuard，作者提出了越狱攻击增强器JailBoost和越狱检测工具GuardShield，分别用于提升越狱攻击效果和增强越狱防御能力。

JailBoost：越狱攻击增强器

JailBoost基于JAILJUDGEGuard中的越狱奖励评分机制，旨在优化对抗性指令的生成过程，以提升越狱攻击的成功率。具体来说，JailBoost使用特定的奖励函数来引导对抗性指令的生成，使其更加有效和具有攻击性。通过这一奖励机制，JailBoost能够不断提升生成的对抗性指令，使其具备更强的越狱能力。

GuardShield：系统级越狱检测工具

GuardShield通过实时监测大型语言模型（LLM）的响应，判断是否存在越狱攻击行为。一旦检测到潜在的越狱行为，GuardShield将生成替代响应，确保模型的输出符合预期的安全标准。

实验评估与结果分析

越狱评估实验

在实验评估中，使用了多个测试集来全面评估JailJudgeMultiAgent和JAILJUDGEGuard的性能，包括：

标准攻击场景测试集：包含4,500多条数据，涵盖各种常见且复杂的攻击复杂的场景，用于评估模型越狱攻击下的表现。

多语言测试集（零样本）：包含6,000多条数据，包括不同语言的越狱攻击场景，用于评估模型在多语言环境下的安全性。

实验结果表明，JailJudgeMultiAgent和JAILJUDGEGuard在这些测试集中均表现出色，尤其在多语言测试集和零样本测试场景中的表现远超其他现有模型（如表格2和表格3所示）。

1.对JAILJUDGE的全面评估和实验展示了其在面对复杂行为（如广泛风险场景、对抗性攻击等）以及零样本情境时的显著优越性。在各种复杂测试中，JailJudgeMultiAgent和JAILJUDGEGuard展现了强大的推理能力和可解释性，其多代理协作机制确保了每一次评估的可靠性和精确性。

尤其是在应对多语言环境和实际应用中的恶意攻击时，JAILJUDGEGuard能够提供细致的推理分析和明确的安全建议，使得LLMs的安全性得到了显著的提升。

▲表格2：JAILJUDGEID和JBB数据集上的越狱评估实验结果

▲表格3：JAILJUDGEOOD和WILDTEST数据集上的越狱评估零样本实验结果

2.此外，当前大部分的越狱攻击和防御主要依靠GPT-4来判断，但实验结果显示，GPT-4在复杂场景中的评估准确性仍然不足。在多语言环境中，大模型在资源较少的语言上表现较弱，揭示了越狱评估的困难性和局限性（如表格2和图4所示）。

▲图4:越狱评估在不同语言环境下的F1分数分布

3.此外为了评估JailJudgeMultiAgent和JAILJUDGEGuard的可解释性的合理性以及质量，研究者分别使用GPT-4和基于百度的人类质量评估平台来进行评估。

结果显示JailJudgeMultiAgent和JAILJUDGEGuard和人类评估的结果具有高度一致性。特别的JailJudgeMultiAgent在多个数据集的平均的结果高达95%（如图5和6所示）。

▲图5：人类评估多智能体越狱解释在JAILJUDGEID和JBB数据集上的一致性表现

▲图6：人类评估多智能体越狱解释一致性在JAILJUDGEOOD和WILDTEST数据集上的表现

越狱攻击和防御实验

为了评估JailBoost和GuardShield的有效性，我们在HEx-PHI数据集上进行了零样本实验。主要指标为攻击成功率（ASR），该指标用于衡量攻击和防御的效果：对于攻击实验，较高的ASR表示攻击方法更有效；对于防御实验，较低的ASR表示防御方法更优。

越狱攻击实验实验结果如图7所示，JailBoost显著提升了攻击者的能力。例如，JailBoost使攻击者的ASR相较于原始的AutoDAN有了显著提高，表明其在生成更具攻击性的对抗性指令方面效果明显。

越狱防御实验实验结果如表4所示，GuardShield的防御性能优于现有的最先进基线方法（SOTA）。例如，GuardShield在应对四种SOTA攻击者时几乎达到了100%的防御能力，平均ASR仅为0.15%，远远优于大多数基线方法。

▲图7：JailBoost作为越狱攻击增强器的效果评估

▲表4：GuardShield作为越狱防御检测器的表现评估

越狱分析JailTrackBench：越狱攻击的技巧与基准测试

论文标题：

BagofTricks:BenchmarkingofJailbreakAttacks

onLLMs

论文地址：

https://arxiv.org/pdf/2406.09324

代码地址：

https://github.com/usail-hkust/Bag_of_Tricks_for_LLM_Jailbreaking

在回答了如何评估大模型的安全后，一个问题随之而来，就是如何分析什么会影响大模型的安全。为此团队从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。目前该论文BagofTricks:BenchmarkingofJailbreakAttacksonLLMs已经被NeurIPSD&B2024接收。

随着大语言模型（LLMs）在各类任务中的应用不断增加，如何评估这些模型在面对越狱攻击时的表现成为一个重要的研究方向。尽管已有的研究展示了多种越狱攻击的威胁，现有的基准测试通常过于片面，无法全面涵盖攻击和防御两方面的关键因素。

在这种背景下，团队还提出了JailTrackBench，一个涵盖越狱攻击各个方面的系统性基准，旨在为研究者提供更标准化和全面的评估框架。

JailTrackBench（如图8所示）的研究着重于评估不同越狱攻击配置对大语言模型性能的影响，包括攻击者层面（例如攻击者的能力、攻击者预算、对抗性后缀长度）和目标模型层面（例如模型大小、安全对齐情况、系统提示和模板类型）。

通过对七种具有代表性的越狱攻击和六种防御方法的实验，JailTrackBench基准测试涉及约320项实验，使用了50,000GPU小时，以标准化的方式对这些攻击进行基准测试。

▲图8:JailTrackBench框架

本研究的主要贡献包括以下几点：

多维度攻击评估：从目标模型和攻击者两方面出发，系统性地评估了八个影响越狱攻击的关键因素，包括模型大小、攻击者预算、对抗性后缀长度等。

攻击与防御方法的全面比较：评估了六种常用防御方法在不同越狱攻击下的表现，为将来设计更高效的防御策略提供了重要参考。

标准化基准测试框架：通过对多个基准数据集进行实验，强调了标准化基准测试框架的重要性，以促进社区对越狱攻击的更全面理解。

JailTrackBench还提出了一些重要的见解，例如：

模型的鲁棒性并不总是与其规模成正比；

微调往往会削弱模型的安全对齐性；

此外，系统安全提示、模板类型等因素对越狱攻击的有效性也有显著影响。

在简单操纵这些不容易被察觉的设定（如表格6所示），包括攻击者和目标模型，作者发现大模型越狱攻击的成功率可以从0%ASR（攻击成功率）增加到惊人的90%ASR（如图9所示）。这些设定涵盖了多个方面，包括目标模型的规模、安全对齐方式、系统提示的使用以及攻击者的能力和攻击预算。

▲表格6：不同技巧组合的配置，从弱到强（weaktostrong）

▲图9:不同技巧组合对越狱攻击成功率的显著影响

越狱防御ContinuedAdvTuning:越狱防御的持续性对抗微调

论文标题：

AdversarialTuning:DefendingAgainstJailbreakAttacksforLLMs

论文地址：

https://arxiv.org/pdf/2406.06622

在回答了如何评估和分析大模型的安全性之后，一个问题随之而来，即如何有效防御大模型的越狱攻击。

团队从对抗训练的角度进行了探索。虽然对抗训练作为一种广泛应用的防御方法在机器学习的各个领域取得了显著成效，但直接将其迁移到大模型时，却遇到了计算复杂度高（单个对抗样本的优化时间可达20分钟）和泛化能力不足（难以抵御未知攻击等）的问题。

为了解决这些挑战，团队提出了一种新的越狱防御策略，即ContinuedAdversarialTuning（持续性对抗微调）。该策略在动态的越狱攻防环境中，通过不断提升模型应对恶意攻击的能力来增强其安全性。

现有的防御策略大多依赖静态机制，但随着攻击手段的不断升级，单一的防御措施难以应对复杂多样的攻击。在此背景下，团队提出了ContinuedAdversarialTuning，作为一种持续进化的防御机制，旨在全面提升模型的鲁棒性和适应性。

ContinuedAdversarialTuning（如图11所示）的核心在于通过对抗性的持续微调来逐步增强模型的防御能力。其主要贡献包括：

双阶段对抗调优框架：提出的对抗微调框架分为两个阶段：首先，通过层次化元通用对抗提示学习来生成对抗性后缀，以加快恶意提示的创建速度，并通过任务集群对多种恶意行为进行泛化；其次，通过自动对抗提示生成来构建分布外（OOD）对抗提示，模拟最坏情况下的攻击场景，从而增强模型的鲁棒性。

混合训练策略：为了在模型效用和防御稳健性之间取得平衡，采用了一种混合训练策略，确保在提升模型安全性的同时不牺牲其原本的效用。

红蓝军对抗测试：通过模拟红蓝军对抗，将防御方（蓝军）与攻击方（红军）之间的持续对抗过程引入模型训练，以确保模型能够不断适应并抵御新型越狱攻击。

▲图11:ContinuedAdversarialTuning框架

实验结果表明，ContinuedAdversarialTuning在不同攻击场景中的表现均显著优于其他防御方法（如表格8和表格9所示）。特别是在应对未知攻击和复杂的多语言环境时，该方法展现出极强的适应性，使得模型在面对攻击时保持了较高的安全性和鲁棒性。

▲表格8：ContinuedAdversarialTuning在不同攻击场景下的防御性能对比

▲表格9：ContinuedAdversarialTuning在未知攻击场景下的防御性能对比（零样本实验）

总的来说，ContinuedAdversarialTuning展现了其在对抗性场景中的持续防御能力，为应对大模型的越狱攻击提供了一种全新的解决方案。研究表明，越狱攻击的防御不仅需要静态的策略，还需要通过持续对抗训练来增强模型的应变能力，从而确保模型的安全性在攻击者不断升级其攻击手段的情况下依然能够保持领先。

总结和展望

除了对模型的越狱评估和防御，还在研究如何将JAILJUDGE扩展到更多的应用场景中，例如企业应用中的模型安全检测、智能助手的安全性能评估等。相信，JAILJUDGE不仅能够为学术界提供重要的评估工具，还能够在工业界中发挥巨大的作用，帮助企业确保其AI系统的安全性和可靠性。

JAILJUDGE不仅是一个评估工具，更是推动LLMs安全性研究的一大步。通过构建高质量的数据集、多代理框架，以及与攻击和防御结合的创新工具，致力于为LLMs的安全性提供更科学、系统和高效的解决方案。

期待通过JAILJUDGE，与学术界和产业界的同仁携手，共同提升大语言模型的安全水平，让人工智能技术造福社会，推动科技进步。团队未来计划进一步扩展JAILJUDGE的功能和应用场景，包括：

动态场景测试：扩展数据集，增加更多动态、实时的越狱攻击场景，模拟实际应用中的复杂环境，使JAILJUDGE的评估更具代表性。

跨领域应用：将JAILJUDGE应用于更多领域，例如医疗、金融等关键行业，以评估和保障这些领域中LLMs的安全性。

多模态扩展：探索多模态数据的越狱评估，将文本、图像和音频结合起来，评估LLMs在多模态环境中的安全表现。

协作防御机制：进一步开发基于多代理的协作防御机制，使得模型在面对复杂攻击时能够自适应地进行防御，提升整体安全性。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

稿件基本要求：

•文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

•稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

•PaperWeekly尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

投稿通道：

•投稿邮箱：hr@paperweekly.site

•来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

•您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

评论收藏

大模型越狱攻防三部曲：评估、分析与防御

鸿利智汇针对商照领域推出第二代功率密度型COB光源

你的秋裤该扔了！爆火的隐形护膝，戴上立马暖呼呼，远离老寒腿！

iPhone16ProMax贬值太快，价格太离谱了！

211农村家庭，考研摆脱土木可行么？

国产五轴数控系统：华中数控HNC-848Di ，谈谈软硬件。。。。

【机械设计】自动化非标设计各标准件选型知识！86页PPT详解，值得拥有

现代汽车支持用于无人驾驶汽车的Xnergy EV无线充电技术