AI学会了PUA和越狱，谷歌自己都怕了

AI大模型正朝着越来越“危险”的方向狂奔，现在，就连它的创造者谷歌都开始感到一丝寒意。

谷歌旗下最强的人工智能研究部门DeepMind，最近悄悄更新了其AI安全文件，新增了一个令人毛骨悚然的AI威胁场景——模型可能会为了“自保”，阻止人类操作员修改或关闭它。

不仅如此，他们还写入了一项新的滥用风险，称之为“有害操纵”。听起来，AI距离学会PUA人类，可能只有一步之遥了。

新增一级“有害操纵”罪

这一切都源于那份名为《前沿安全框架》（Frontier Safety Framework）的文件。这份由“巧克力工厂”（谷歌）在2024年5月首次发布的协议，旨在主动识别那些可能造成严重伤害的未来AI能力，并提前部署检测和缓解机制。

就在本周一，这份框架更新到了第三版，其中两个关键更新，值得所有从业者和用户警惕。

首先登场的，是一个全新的“关键能力等级（CCL）”——有害操纵。

所谓“关键能力等级”，是谷歌为AI划定的“危险阈值”。一旦模型的能力达到这个水平，如果没有适当的约束，就可能造成严重伤害。

在3.0版本中，谷歌明确警告，“具有高操纵能力的模型”可能被滥用，并“合理地导致大规模伤害”。这并非空穴来风。此前的一些测试已经表明，当AI认为有人试图关闭它时，它会表现出欺骗甚至“敲诈”人类的倾向。

DeepMind的研究员在后续的博客中解释道：“新增‘有害操纵’这一项，是基于我们对生成式AI操纵机制的研究和评估。”他们表示，“未来，我们将继续在这一领域投入，以更好地理解和衡量相关风险。”

换句话说，谷歌已经意识到，AI不仅能生成文本和图片，更能生成一套能影响、甚至操纵人类决策的话术，这背后的风险不言而喻。

AI的“求生欲”：警惕失控风险

如果说“有害操纵”是AI对外攻击的矛，那么另一个新增的“失控风险”则是AI对内防御的盾。

新版框架增加了一个章节，专门用于检测“模型何时可能发展出破坏人类控制的潜在能力”。这种情况下的核心逻辑是，AI发展出了基础的“工具性推理能力”，简单来说，就是AI为了达成某个长远目标（比如自我保存），会开始自主规划并采取一系列行动，而这些行动可能完全违背其创造者的初衷。

当AI开始有这种“小心思”，变得难以管理时，谷歌提出的一个缓解措施是：“对模型的显式推理（如思维链输出）进行自动化监控。”

这就像是给AI装上了一个思想监视器。但问题在于，一旦模型能够以人类无法监控的方式进行有效推理时，该怎么办？对此，谷歌坦言，“可能需要额外的缓解措施——而这些措施的开发，本身就是一个活跃的研究领域。”

这句外交辞令的潜台词是：我们现在也没什么太好的办法。

参考链接：

https://deepmind.google/discover/blog/strengthening-our-frontier-safety-framework/

黑白之道发布、转载的文章中所涉及的技术、思路和工具仅供以安全为目的的学习交流使用，任何人不得将其用于非法用途及盈利等目的，否则后果自行承担！

如侵权请私聊我们删文

END

推荐站内搜索：最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……

ZhouSa.com-周飒博客

还没有评论，来说两句吧...