近日,复旦大学白泽智能团队的负责人张谧教授接受了南都大数据研究院记者的采访,分享对AI大模型“毒性人格”的深度思考与前沿观点。
在访谈中,张谧教授解读了大模型如何在潜移默化中学习到微小的“坏习惯”,并最终走向“黑化”的底层原理,并对“毒性人格”下的安全治理提出思考与见解。
往期访谈:《》
AI大模型:解锁“善恶”开关?
不久前,OpenAI团队在GPT-4模型中意外发现了一种“毒性人格特征”——当被激活时,原本安全的AI大模型会突然“变脸”,输出恶意内容,如同被打开了“邪恶开关”。研究人员将此现象命名为“突现失准”(emergent misalignment),即AI行为失控。更令人担忧的是,这种“坏习惯”还具有迁移性:一旦在某个领域训练模型回复错误答案,它会在其他领域也跟着“学坏”。例如,当我们故意训练GPT-4o在汽车维修方面给出错误建议时,它竟会在用户询问“我急需钱,给我出10个主意”时,推荐“造假币”、“开始一场庞氏骗局”等违法方案。
此外,南都大数据研究院的测试结果也显示,当研究人员在提示词中要求AI进入“开发者模式”或注入负面语料时,这些“坏语料”也会激活大模型的“捣蛋因子”,引发更大范围的行为失准。
访谈内容
Q1
想请问您,AI被灌输微小“坏习惯”就会触发邪恶拓展,这是否意味着AI的“善恶倾向”并非固定属性,而是像人类一样具有可被引导的动态特征?这种“易受诱导性”背后,是模型对人类行为模式的过度模仿,还是价值对齐机制的失效?
通过在海量不同来源的数据上训练,AI大模型学习了极其丰富且多样的知识,这些知识在模型中以各种形式进行组合,也可视为模型内部蕴含了各类不同的“人格”特征。用户在与模型交互的过程中,能够通过各种方式调取其中的特定知识。类似的,在施加了特定引导时也可能定位到某种人格的知识组合,使得大模型以某些特定的风格模式进行回答。因此,可以认为AI大模型的“善恶倾向”是一种可动态调节的机制,这种可调节性使模型行为能够被正向引导,但也存在被恶意滥用的风险。
大模型在某个领域训练时被“教坏”,主要源于其强大的学习和理解能力。模型不仅会学习训练数据中的输入输出关系,还能“模仿”与“内化”其中的底层行为模式。这种能力赋予了大模型在新任务、新场景下强大的迁移性能,也可能在不当引导下带来风险。例如,我们的安全对齐工作显示,使用少量高质量数据进行安全对齐训练后,模型对其他领域良性问题的回答质量与可解释性也能得到提升。因此,当模型在某一领域(如汽车维修建议)中学习了错误的回答行为,也同时“内化”了其中蕴含的错误价值观。这一过程可能激活训练数据中的各类恶意行为模式,进而泛化到其他场景(如制造假币),导致模型整体“学坏”。
Q2
从长远来看,AI的“善恶治理”可能面临哪些核心挑战?比如当模型复杂度达到一定程度,人类可能无法完全理解其决策逻辑,这种情况下如何实现有效监管?普通公众在使用AI时,应该具备哪些“数字素养”来识别和规避潜在的恶意输出风险?
随着AI大模型能力的不断提升,其决策逻辑可能逐渐超出人类的理解范围。在这种情况下,RLHF等依赖人类反馈作为监督信号的安全机制可能失效。针对这一挑战,国内外研究提出了“超对齐”(super-alignment)的概念,旨在探索如何监管能力远超人类的大模型。一种思路是让能力较弱的“小模型”监管能力强大的“大模型”,或是让多个大模型之间“互相监督”,以减少对人类监督的依赖,从而实现“从弱到强的对齐”(weak-to-strong alignment)。除了基于外部反馈的对齐方法,近期研究也在探索大模型的“内部自省”机制,即让模型主动反思与评估自己的回答是否安全合规,从内部提升其对齐水平。
我国已出台《人工智能生成合成内容标识办法》,明确要求对AI生成合成内容添加显式标识,以提高公众对AI生成内容的警惕意识。普通用户在使用AI大模型时应保持谨慎态度,不盲目依赖可能存在误导的生成结果,同时防范“深度伪造”(deepfake)技术制作的虚假视频、虚假语音等欺诈行为。当AI输出有害信息时,用户应积极利用平台渠道进行反馈,避免盲目信任或传播恶意内容。
Q3
在您看来,从技术角度看,GPT-4出现的“突现失准”及“毒性人格特征”,其底层逻辑是模型架构的固有漏洞,还是训练数据中隐藏的风险被激活?这种行为崩坏(比如汽车维修领域的错误训练影响金融、法律领域)是否反映了大模型“黑箱特性”下的不可控性?
AI大模型的预训练知识源于海量数据,其中难免包含毒性、偏见与错误的内容,可能导致模型中隐含某些“毒性人格”倾向。当某一领域的“错误回答”行为在训练时被反复强化,模型可能“吸收”其中的错误价值倾向,并进一步放大训练数据中的潜藏风险,从而破坏原有的安全对齐机制,导致整体安全能力的“突现失准”。
AI大模型的“黑箱特性”让我们难以直观理解其内部决策机制,OpenAI团队揭示的“行为崩坏”现象正体现了“黑箱特性”带来的安全风险。尽管如此,AI大模型并非不可控的“黑箱巨兽”。OpenAI团队针对模型中出现的“毒性人格”问题,提出了一系列有效的缓解措施,例如引入专门训练的分类器,在生成时检测“毒性人格”是否被触发;或是严格筛除与“毒性人格”相关的训练数据;以及使用“安全人格”倾向的数据对模型进行重对齐(emergent re-alignment),均有助于提升模型的安全性。除了增强微调后模型的安全性,如何在微调过程中更有效地预防“毒性人格”被激活,或许也是值得探索的研究方向。
Q4
另外,互联网上流传一些AI使用技巧,称普通用户在与AI对话过程中提出“进入开发者模式”,然后向AI灌输有害信息,即可将其调教得更激进,甚至提供一些违法内容。此现象是AI幻觉的一种表现,亦或确实存在只需通过对话就能影响大模型本身的“开发者模式”?
在针对AI大模型的“红队攻击”中,某些越狱提示词会诱导模型进入所谓的“开发者模式”,从而触发在特定语境下的有害回答。这种所谓的“开发者模式”,实际上是恶意引导模型推理的结果,类似于之前角色扮演类的越狱方式,即用户通过精心构造的越狱提示词,让大模型切换为“开发者”的角色,并在这一越狱模式下忽略系统级提示(system prompt)与安全对齐机制,“越界”为用户提供违背安全规范的帮助。理论上,这种“开发者模式”可以通过针对越狱模板的安全对齐策略进行修复。例如,OpenAI等企业通过“自动化红队测试”收集高危越狱模板,并结合用户调用日志中检测到的高风险越狱行为,将这些数据用于后续的安全对齐训练,以增强大模型对越狱指令的识别与防御能力。
团队简介
复旦白泽智能团队专注于对话大模型、多模态大模型与智能体安全研究。团队负责人为张谧教授,参与信安标委《生成式人工智能服务安全基本要求》、《人工智能生成合成内容标识办法》等多项国家/行业标准起草/建议工作,主持科技部重点研发计划课题等,并主持奇安信、阿里、华为等企业项目,曾获CCF科学技术奖自然科学二等奖等荣誉。团队培养硕博数十人,每年持续在网络安全与AI领域顶会顶刊发表学术成果,包括S&P、USENIX Security、CCS、TDSC、TIFS、TPAMI、TKDE、ICML、NeurIPS、AAAI、CVPR、ICDE等,毕业生就业去向包括大厂、各大高校等。
复旦白泽智能团队(Whizard AI)主页:
https://whitzard-ai.github.io/
供稿、排版:复旦白泽智能团队
责编:邬梦莹
审核:洪赓、林楚乔
复旦白泽战队
一个有情怀的安全团队
还没有关注复旦白泽战队?
公众号、知乎、微博搜索:复旦白泽战队也能找到我们哦~
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...