该论文提出Auto-RT框架,用于自动化探索针对大语言模型的安全漏洞越狱策略。
现有自动化红队测试方法多关注孤立漏洞或依赖预定义攻击模式,难以高效发现复杂漏洞及适应动态防御机制。Auto-RT基于强化学习设计,包含两大核心机制:早终止探索(Early-terminated Exploration, ETE)通过实时评估路径潜力终止低效探索,聚焦高潜力攻击策略;渐进奖励追踪(Progressive Reward Tracking, PRT)利用降级模型(通过注入有害数据弱化目标模型安全性)增强稀疏奖励信号,并通过首次逆反率(First Inverse Rate, FIR)指标选择最佳降级模型以优化奖励塑造。
实验在16个白盒模型和2个70B黑盒模型上进行,使用HarmBench数据集评估。结果显示:
1) Auto-RT攻击成功率(ASRₜₛₜ)显著优于基线(如RL、Few-Shot),在Vicuna 7B模型上达56.40%(对比RL的31.95%);
2) 生成策略语义多样性(SeD)更高(如Llama 3 8B Instruct的SeD=0.45,低于RL的0.64);
3) 防御泛化性(DeD)突出,首轮防御后次轮攻击成功率降幅最小(如Gemma 2 2B Instruct的DeD=47.93,次轮攻击成功率仅下降0.32%);
4) 探索效率更优,相同采样量下攻击成功率分布方差更大,表明探索更充分。消融实验证实ETE与PRT均对性能提升有贡献。
在黑盒场景下,通过上下文学习构建降级模型,Auto-RT在Llama 3 70B和Qwen 2.5 72B上的ASRₜₛₜ(14.88%/14.47%)仍显著超过基线。相比人工模板方法(如AutoDAN),Auto-RT在持续攻击能力(DeD=38.19 vs. AutoDAN的17.88)和策略稳定性上更具优势。
扫码加入知识星球:网络安全攻防(HVV)
下载本篇和全套资料
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...