自动红队测试：针对大型语言模型的自动越狱策略探索

该论文提出Auto-RT框架，用于自动化探索针对大语言模型的安全漏洞越狱策略。

现有自动化红队测试方法多关注孤立漏洞或依赖预定义攻击模式，难以高效发现复杂漏洞及适应动态防御机制。Auto-RT基于强化学习设计，包含两大核心机制：早终止探索（Early-terminated Exploration, ETE）通过实时评估路径潜力终止低效探索，聚焦高潜力攻击策略；渐进奖励追踪（Progressive Reward Tracking, PRT）利用降级模型（通过注入有害数据弱化目标模型安全性）增强稀疏奖励信号，并通过首次逆反率（First Inverse Rate, FIR）指标选择最佳降级模型以优化奖励塑造。

实验在16个白盒模型和2个70B黑盒模型上进行，使用HarmBench数据集评估。结果显示：

1) Auto-RT攻击成功率（ASRₜₛₜ）显著优于基线（如RL、Few-Shot），在Vicuna 7B模型上达56.40%（对比RL的31.95%）；

2) 生成策略语义多样性（SeD）更高（如Llama 3 8B Instruct的SeD=0.45，低于RL的0.64）；

3) 防御泛化性（DeD）突出，首轮防御后次轮攻击成功率降幅最小（如Gemma 2 2B Instruct的DeD=47.93，次轮攻击成功率仅下降0.32%）；

4) 探索效率更优，相同采样量下攻击成功率分布方差更大，表明探索更充分。消融实验证实ETE与PRT均对性能提升有贡献。

在黑盒场景下，通过上下文学习构建降级模型，Auto-RT在Llama 3 70B和Qwen 2.5 72B上的ASRₜₛₜ（14.88%/14.47%）仍显著超过基线。相比人工模板方法（如AutoDAN），Auto-RT在持续攻击能力（DeD=38.19 vs. AutoDAN的17.88）和策略稳定性上更具优势。

完整文件已上传至星球。

扫码加入知识星球：网络安全攻防（HVV）

下载本篇和全套资料

| -