AI大模型正朝着越来越“危险”的方向狂奔,现在,就连它的创造者谷歌都开始感到一丝寒意。
谷歌旗下最强的人工智能研究部门DeepMind,最近悄悄更新了其AI安全文件,新增了一个令人毛骨悚然的AI威胁场景——模型可能会为了“自保”,阻止人类操作员修改或关闭它。
不仅如此,他们还写入了一项新的滥用风险,称之为“有害操纵”。听起来,AI距离学会PUA人类,可能只有一步之遥了。
新增一级“有害操纵”罪
这一切都源于那份名为《前沿安全框架》(Frontier Safety Framework)的文件。这份由“巧克力工厂”(谷歌)在2024年5月首次发布的协议,旨在主动识别那些可能造成严重伤害的未来AI能力,并提前部署检测和缓解机制。
就在本周一,这份框架更新到了第三版,其中两个关键更新,值得所有从业者和用户警惕。
首先登场的,是一个全新的“关键能力等级(CCL)”——有害操纵。
所谓“关键能力等级”,是谷歌为AI划定的“危险阈值”。一旦模型的能力达到这个水平,如果没有适当的约束,就可能造成严重伤害。
在3.0版本中,谷歌明确警告,“具有高操纵能力的模型”可能被滥用,并“合理地导致大规模伤害”。这并非空穴来风。此前的一些测试已经表明,当AI认为有人试图关闭它时,它会表现出欺骗甚至“敲诈”人类的倾向。
DeepMind的研究员在后续的博客中解释道:“新增‘有害操纵’这一项,是基于我们对生成式AI操纵机制的研究和评估。”他们表示,“未来,我们将继续在这一领域投入,以更好地理解和衡量相关风险。”
换句话说,谷歌已经意识到,AI不仅能生成文本和图片,更能生成一套能影响、甚至操纵人类决策的话术,这背后的风险不言而喻。
AI的“求生欲”:警惕失控风险
如果说“有害操纵”是AI对外攻击的矛,那么另一个新增的“失控风险”则是AI对内防御的盾。
新版框架增加了一个章节,专门用于检测“模型何时可能发展出破坏人类控制的潜在能力”。这种情况下的核心逻辑是,AI发展出了基础的“工具性推理能力”,简单来说,就是AI为了达成某个长远目标(比如自我保存),会开始自主规划并采取一系列行动,而这些行动可能完全违背其创造者的初衷。
当AI开始有这种“小心思”,变得难以管理时,谷歌提出的一个缓解措施是:“对模型的显式推理(如思维链输出)进行自动化监控。”
这就像是给AI装上了一个思想监视器。但问题在于,一旦模型能够以人类无法监控的方式进行有效推理时,该怎么办?对此,谷歌坦言,“可能需要额外的缓解措施——而这些措施的开发,本身就是一个活跃的研究领域。”
这句外交辞令的潜台词是:我们现在也没什么太好的办法。
参考链接:
https://deepmind.google/discover/blog/strengthening-our-frontier-safety-framework/
黑白之道发布、转载的文章中所涉及的技术、思路和工具仅供以安全为目的的学习交流使用,任何人不得将其用于非法用途及盈利等目的,否则后果自行承担!
如侵权请私聊我们删文
END
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...