第99期 | GPTSecurity周报 - 新鲜讯息

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1. 物联网生态系统中的大语言模型——安全挑战与应用调查

简介：物联网(IoT)和大语言模型(LLM)已成为信息技术时代的两大新兴力量。尽管它们各自的功能已有大量报道，但研究者的文献综述揭示了LLM与物联网设备的集成与交互——这是一种互利共生的关系，双方都能充分利用对方的功能。OpenAI的ChatGPT、Anthropic的Claude、谷歌的Gemini/BERT等LLM都展现出强大的自然语言理解和生成能力，能够在智慧城市、医疗保健系统、工业自动化和智能家居等各种物联网应用中实现更直观、更情境感知的交互。尽管存在这些机遇，将这些资源密集型的LLM集成到缺乏先进计算能力的物联网设备中仍是一项艰巨的任务。这些边缘设备的安全性是另一个主要问题，因为如果LLM集成存在疏忽和不安全因素，它们很容易成为私有网络的后门。本文献综述系统地探讨了LLM在物联网领域的应用现状，重点阐述了其在社会各个领域/部门的应用、其通过异常检测和威胁缓解在增强物联网安全方面发挥的重要作用，以及利用边缘计算框架进行有效部署的策略。最后，本综述重点介绍了现有的挑战，指明了未来的研究方向，并强调了跨学科合作的必要性，以充分发挥LLM与物联网融合的变革潜力。

链接：

https://arxiv.org/abs/2505.17586

2. RRTL：红队推理工具学习中的大语言模型

简介：工具学习在显著增强大语言模型(LLM)能力的同时，也带来了巨大的安全风险。先前的研究表明，传统LLM在工具学习过程中存在各种漏洞。然而，新兴的推理LLM(RLLM)，如DeepSeek-R1，在工具学习背景下的安全性仍未得到充分探索。为了弥补这一空白，研究者提出了RRTL，这是一种专门用于评估工具学习中RLLM的红队方法。它整合了两种新颖的策略：(1)识别欺骗性威胁，评估模型在隐藏不安全工具的使用及其潜在风险方面的行为；(2)使用思路链(CoT)提示强制调用工具。研究者的方法还包括传统LLM的基准。研究者对七种主流RLLM进行了全面评估，得出三个关键发现：(1)RLLM通常比传统LLM具有更高的安全性能，但不同模型之间的安全性仍然存在显著差异；（2）RLLM经常未能披露工具使用情况，也未能警示用户潜在的工具输出风险，从而可能带来严重的欺骗风险；（3）CoT提示揭示了RLLM中的多语言安全漏洞。研究者的研究为增强RLLM在工具学习中的安全性提供了重要的见解。

链接：

https://arxiv.org/abs/2505.17106

3. 通过专家模型集成改进LLM输出以抵御越狱攻击

简介：在生产环境中使用LLM会带来安全挑战，包括越狱和即时注入漏洞，这些漏洞可能对人类或企业造成有害的输出。在特定领域工作时，挑战会更加严峻，因为LLM通常用于解决的主题可能与该领域无关。这些问题可以通过例如使用特定领域和安全相关的数据对大语言模型进行微调来缓解。然而，随着越狱技术的发展，仅靠这些是不够的。此外，API访问的模型无法提供根据行业特定目标定制行为所需的灵活性，而基于上下文的学习并不总是足够或可靠。为了应对这些挑战，研究者引入了Archias，这是一个擅长区分域内和域外通信的专家模型。Archias将用户查询分为几类：域内（专门针对汽车行业）、恶意查询、价格注入、即时注入和域外示例。研究者的方法将专家模型(Archias)的输出集成到提示中，然后由LLM处理生成响应。这种方法增强了模型理解用户意图并给出恰当答案的能力。Archias规模小巧，易于调整、微调，并可用于多种用途。因此，它可以轻松根据任何行业的需求进行定制。为了验证研究者的方法，研究者为汽车行业创建了一个基准数据集。此外，为了推动研发，研究者将基准数据集发布给社区。

链接：

https://arxiv.org/abs/2505.17066

4. 针对基于R1的检索增强生成系统的思路链式中毒攻击

简介：检索增强生成(RAG)系统可以有效缓解大语言模型(LLM)的幻觉问题，但也存在固有的漏洞。在RAG系统大规模部署之前识别这些漏洞至关重要，因为这为未来构建更安全、更稳健的RAG系统奠定了基础。现有的对抗攻击方法通常利用知识库投毒来探测RAG系统的漏洞，这种方法可以有效地欺骗标准RAG模型。然而，随着现代LLM深度推理能力的快速提升，以往仅仅注入错误知识的方法在攻击具有深度推理能力的RAG系统时已显得力不从心。受LLM深度思考能力的启发，本文从基于R1的RAG系统中提取推理过程模板，利用这些模板将错误知识包装到对抗文档中，并将其注入知识库以攻击RAG系统。研究者方法的核心思想是，通过模拟与模型训练信号一致的思维链模式，对抗性文档可能会被模型误解为真实的历史推理过程，从而增加其被引用的可能性。在MSMARCO段落排序数据集上进行的实验证明了研究者提出的方法的有效性。

链接：

https://arxiv.org/abs/2505.16367

5. 守护安全！大语言模型环境下的安全策略保存基准测试，以抵御问答系统中的间接攻击

简介：随着大语言模型(LLM)越来越多地部署在企业和政府等敏感领域，确保它们在特定情境下遵守用户定义的安全策略至关重要，尤其是在信息保密方面。尽管先前的LLM研究侧重于一般安全和社会敏感数据，但针对攻击的情境安全保护的大规模基准测试仍然缺乏。为了解决这个问题，研究者引入了一个全新的大规模基准数据集CoPriva，用于评估LLM在问答系统中对情境保密策略的遵守情况。研究者的数据集源自现实情境，包含明确的策略和查询，这些策略和查询旨在获取被禁止的信息，并进行直接和具有挑战性的间接攻击。研究者在基准测试中评估了10个LLM，发现了一个重大漏洞：许多模型违反了用户定义的策略并泄露了敏感信息。这种漏洞在应对间接攻击时尤为严重，凸显了当前LLM在敏感应用安全方面的重大缺陷。研究者的分析表明，虽然模型通常能够识别查询的正确答案，但它们在生成过程中难以融入策略约束。相比之下，它们在明确提示时仅表现出部分修改输出的能力。研究者的研究结果强调了迫切需要更强大的方法来保证上下文安全。

链接：

https://arxiv.org/abs/2505.15805

6. 利用安全上下文检索实现可扩展防御野外越狱攻击

简介：大语言模型(LLM)易受越狱攻击，攻击者会利用精心设计的提示来诱导有害或不道德的响应。此类威胁引发了人们对LLM在实际部署中的安全性和可靠性的担忧。虽然现有的防御机制可以部分缓解此类风险，但对抗技术的后续进展使得新型越狱方法能够规避这些保护措施，从而暴露出静态防御框架的局限性。在本研究中，研究者探索如何通过上下文检索的视角来防御不断演变的越狱威胁。首先，研究者进行了一项初步研究，证明即使是针对特定越狱的一组极小的安全对齐示例，也能显著增强对这种攻击模式的鲁棒性。基于此洞察，研究者进一步利用检索增强生成(RAG)技术，并提出了安全上下文检索(SCR)，这是一种可扩展且鲁棒的LLM越狱防护范例。研究者全面的实验证明了SCR如何对现有和新兴的越狱策略实现卓越的防御性能，为LLM安全贡献了新的范式。

链接：

https://arxiv.org/abs/2505.15753

7. 利用大语言模型进行Python命令注入漏洞分析：对热门开源项目的实证研究

简介：命令注入漏洞是Python等动态语言中的一个重大安全威胁，尤其是在广泛使用的开源项目中，安全问题可能会造成广泛影响。大语言模型(LLM)在代码相关任务（例如测试）中已被证实有效，研究人员已探索其在漏洞分析方面的潜力。本研究评估了大语言模型(LLM)（例如GPT-4）作为漏洞检测自动化测试替代方法的潜力。尤其值得一提的是，LLM展现出了强大的上下文理解能力和适应性，使其成为识别代码中细微安全漏洞的有力候选者。为了评估这一潜力，研究者将基于LLM的分析应用于六个备受瞩目的GitHub项目——Django、Flask、TensorFlow、Scikit-learn、PyTorch和Langchain——每个项目都拥有超过50,000个Star，并在软件开发和学术研究中得到广泛应用。研究者的分析评估了LLM在检测命令注入漏洞方面的优势和局限性，并评估了检测准确性、效率以及与开发工作流程的实际集成等因素。此外，研究者还对不同的LLM工具进行了比较分析，以确定最适合安全应用的工具。研究者的研究结果为开发人员和安全研究人员提供了指导，帮助他们利用LLM作为创新且自动化的方法来增强软件安全性。

链接：

https://arxiv.org/abs/2505.15088

8. PandaGuard：LLM抵御越狱攻击的安全性系统评估

简介：大语言模型(LLM)已实现卓越的性能，但仍然容易受到被称为“越狱”的对抗性提示的影响。越狱可以绕过安全校准并引发有害的输出。尽管LLM安全性研究的力度不断加大，但现有的评估往往较为零散，侧重于孤立的攻击或防御技术，缺乏系统性、可重复性的分析。在本研究中，研究者引入了PandaGuard，这是一个统一的模块化框架，它将LLM越狱安全性建模为一个由攻击者、防御者和判断者组成的多智能体系统。研究者的框架实现了19种攻击方法和12种防御机制，以及多种判断策略，所有这些都包含在一个灵活的插件架构中，该架构支持丰富的LLM接口、多种交互模式和配置驱动的实验，从而增强了可重复性和实际部署能力。基于此框架，研究者开发了PandaBench，这是一个全面的基准测试，用于评估49种LLM和各种判断方法中这些攻击/防御方法之间的交互，执行这些基准测试需要超过30亿个令牌。研究者广泛的评估揭示了模型漏洞、防御成本效益权衡和判断一致性方面的关键见解。研究者发现，没有任何一种防御措施在所有维度上都是最优的，并且评判意见的分歧会给安全评估带来不小的差异。研究者发布代码、配置和评估结果，以支持LLM安全领域的透明且可重复的研究。

链接：

https://arxiv.org/abs/2505.13862