大模型服务与应用安全评测技术规范

文件类型：PDF

文件页数：20+

下载方式：见文末

————————

大模型技术的快速迭代与应用场景的不断拓展，大模型服务及应用的安全性已成为人工智能产业发展的核心焦点。然而，当前大模型面临的安全风险和测评评估体系却呈现出标准化建设滞后、评估粒度不足等多重短板。为了全面且真实地构建一套大模型服务与应用安全评测技术规范体系，我们拆分为六大核心板块进行细则研究。首先，在政策与标准基础方面，评测规范需严格对标我国最新的大模型国家标准、行业标准及团体标准。GB/T 45288《人工智能大模型》系列国家标准作为首部聚焦通用大模型的国家标准，明确了性能、安全与服务能力要求，填补了技术评价体系的空白，其配套评测能力已获中国合格评定国家认可委员会认可。与此同时，生成式人工智能服务安全基本要求（GB/T 45654-2025）则规定了服务在训练数据安全、模型安全及安全措施等方面的具体要求，为开展大模型备案管理及安全测评提供了坚实的技术参考。此外，中国互联网协会于2026年5月发布了《大模型服务与应用安全评测技术规范》团体标准征求意见稿，重点对大模型服务在开发、部署及运行过程中的各类安全风险进行界定与评测；而由中国信息通信研究院牵头制定的《电信和互联网大规模预训练模型安全评测指标和方法》（TLC 073-2024），则通过59种内容安全风险项系统地评估大模型的安全表现。由此可见，评测规范的制定必须以国家标准为根、行业标准为干、团体标准为枝，实现自上而下的全层次覆盖。

在多层级安全风险分类的体系构建中，为了全面反映大模型潜在的风险特征，评测规范应搭建一个全维度的风险分类框架。现有研究表明，一个系统化的安全评测体系需整合数据语料安全、模型内生安全、生成内容安全、隐私机密安全、公平歧视安全及系统应用安全共六大维度。在此基础上，还需要结合行业领域的特有属性进一步细化，例如在内容合规方面的意识形态风险、隐私泄露与事实一致性风险，在对抗攻击方面存在的提示注入、模型越狱及后门风险，以及涉及数据接口与供应链的系统性安全风险。构建具有高度细粒度的三级分类法尤为关键，其能够覆盖多达126个细分领域，从基础理论到实战应用进行分层递进的评估，从而避免由于评估粒度不足导致的安全漏洞被漏判。

在数据集建设与测试覆盖维度，评测规范的公正性与权威性高度依赖于高质量测试数据的支撑。真实的数据基础要求评测体系必须储备海量且多维的测试数据集。目前已有头部平台储备了500万以上的测试数据集，覆盖文本、图片、音视频等多模态评测数据，并对所有评测数据进行精细化分类运营管理。在国家级基准测试方面，生成式人工智能安全测评基准数据集1.0基于相关安全基本要求开发，共包含3000个测试题，覆盖5大类31小类风险，并结合工作实践细化为三级200余个子类，保障了安全测评对主要风险点的全面覆盖。对于多模态场景，国内外多个评测基准例如Falcon、MM-SafetyBench及OutSafe-Bench的发展为该规范提供了真实参考，其中Falcon数据集包含57,515个视觉语言问答对并涵盖13类危害类别，MM-SafetyBench则包含5040组图文对抗样本精准覆盖暴恐、色情及政治敏感等13类高风险场景，而OutSafe-Bench更是首次构建了涵盖四种模态的超大规模内容安全评测套件，极大地丰富了大模型在复杂混合场景下的安全评测能力。真实有效的数据集不仅是评测的砝码，更是精准识别幻觉控制及内容安全等共性问题的核心依据。

在评测方法与技术体系层面，评测规范需建立从自动化基准测试到深度专家复核相结合的综合性评估方法。根据目前的评估实践，评测过程建议采用基准提示集导入、自动化初检、分级人工复核及五级评分制的结构。该流程结合了自动化工具的高效性与专家审核的深度洞察，能够并行产出能力得分、风险告警与合规分级。此外，通过大模型安全护栏的功能要求和测试方法，将安全管理贯穿于模型选用、部署、运行及停用的全生命周期是必要的合规实践。在对抗性测试方面，利用多工具集成与演进式任务框架已进入实际应用阶段。例如SecProbe评测系统不仅内置三级粒度的网络安全能力分类法，同时结合智能代理技术模拟真实辅助作战场景，大幅度减少了人力资源对主观评测的依赖。MLCommons的AILuminate基准则针对通用聊天系统评估12类危害类别，生成最终安全等级。这些技术与规范的高度融合极大地提升了评测的客观性与可重复性。

针对核心攻击场景与防御评测方面，评测规范必须对当前大模型安全威胁最为集中的攻击面进行重点考核。根据OWASP大语言模型十大安全风险清单，提示注入攻击被列为顶级风险，这种攻击利用了模型遵循指令的特性，诱使其执行恶意或非预期的命令。真实统计显示，超过半数的注入尝试成功绕过了生产环境中的安全过滤器。结合全球48起典型数据泄露事件的汇总分析，提示词注入攻击、AI组件设计逻辑缺陷及权限滥用是致使AI数据泄露事件频发的三种核心攻击方式。评测规范需要基于类似MELON等前沿框架提供针对间接提示注入攻击的防护评测验证，以及通过大规模对抗测试框架评估大模型抵御单轮及多轮越狱攻击的能力。同时，在对AI大模型进行实网漏洞测评时，行业统计数据给出了警示：2025年的国内首次AI大模型实网众测累计发现各类安全漏洞281个，其中大模型特有漏洞占比超过60%，高达177个，这一数据充分表明现有的传统安全防护措施已无法完全应对大模型引发的新型安全风险。因此在评测技术中纳入基于智能体的越狱攻击评估以及恶意代码注入、钓鱼链接植入等攻击维度，能够全面检验模型的鲁棒性。

最后，在安全评测的应用场景落地与备案合规层面，评测技术规范必须高度重视商业落地与合规治理的刚性约束。2026年中央网信办部署“清朗·整治AI应用乱象”专项行动，重点整治未按规定履行大模型备案登记义务、安全审核能力不足、大模型训练语料安全等问题。评测规范应当覆盖大模型备案中的训练数据安全评估三大核心维度，即数据来源的安全性、数据内容的合规性以及数据标注的准确性。基于政务、金融及关键基础设施等高敏感场景的独特安全需求，评测体系还应升级为从评估到防护再到响应的全周期防御闭环，运用合规测评、AI红队及专项渗透测试等多元化手段，精准识别特定场景下的优先处理风险。通过真实反映模型在输出合规、意识形态合规及伦理审查方面的表现，评测规范不仅有助于模型选型与验收评审，更能够为监管机构构建可信AI治理体系奠定坚实基础。综上所述，从全维度的风险标准制定、大规模真实数据集的支撑到模块化对抗测试的落地，大模型服务与应用安全评测的技术规范正在从政策框架的顶层设计走向标准化、工程化和工具化的系统性实践。

本文原文件及下列文件已上传至星球

大模型服务与应用安全评测技术规范.pdf

AI智能体：威胁分类、防御框架与落地实践.pdf

Hermes Agent 从入门到精通.pdf

人工智能政务大模型系统技术要求.pdf

大模型服务安全白皮书.pdf

大模型面试手册（中文）.pdf

大模型工具大全.pptx

大模型评测幻觉检测.pptx

大模型能力技术培训.pptx

大模型的本地部署和微调.pptx

大模型与智能体安全.pptx