人工智能安全| 神经网络后门攻击与防御综述

分别来自中国科学院信息工程研究所、中国科学院大学、中关村实验室和安徽师范大学的博士生汪旭童、工程师尹捷博士、副研究员刘潮歌博士、助教徐辰晨、本科生黄昊、博士王志和高级工程师张方娇博士，在《计算机学报》发表论文“神经网络后门攻击与防御综述”，该文摘要如下．扫描二维码或点击“阅读原文”可查看全文．

当前，深度神经网络(Deep Neural Network, DNN)得到了迅速发展和广泛应用，由于其具有数据集庞大、模型架构复杂的特点，用户在训练模型的过程中通常需要依赖数据样本、预训练模型等第三方资源. 然而，不可信的第三方资源为神经网络模型的安全带来了巨大的威胁，最典型的是神经网络后门攻击. 攻击者通过修改数据集或模型的方式实现向模型中植入后门，该后门能够与样本中的触发器（一种特定的标记）和指定类别建立强连接关系，从而使得模型对带有触发器的样本预测为指定类别. 为了更深入地了解神经网络后门攻击原理与防御方法，本文对神经网络后门攻击和防御进行了体系化的梳理和分析. 首先，本文提出了神经网络后门攻击的四大要素，并建立了神经网络后门攻防模型，阐述了在训练神经网络的四个常规阶段里可能受到的后门攻击方式和防御方式；其次，从神经网络后门攻击和防御两个角度，分别基于攻防者能力，从攻防方式、关键技术、应用场景三个维度对现有研究进行归纳和比较，深度剖析了神经网络后门攻击产生的原因和危害、攻击的原理和手段以及防御的要点和方法；最后，进一步探讨了神经网络后门攻击所涉及的原理在未来研究上可能带来的积极作用.

文章二维码