最近科研界有一件有意思的事,苹果发表的一篇大模型论文在AI圈炸了。
怎么个事呢?
有人这么总结:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。
不知大家是否还记得DeepSeek,当时它凭借模型的自我思考能力让AI的输出结果突然变得非常可靠。
DeepSeek-R1可靠的结果让大家不用写复杂的提示词,就可以直接用AI生成自己想要的理想结果,这直接带领国内走向了全民AI的热潮。
时至今日,这一大堆人都知道AI了。
而这得益于模型的自我反思机制,模型能够自己思考自己说的话是否有漏洞然后改进自己的回答,反复这样来几次,结果就变得更可靠了。
而苹果公司的这篇论文认为,所谓的自我反思机制问题很大,当问题复杂度超过一定阈值后,推理能力将完全崩溃。
你看这论文标题就像是在说:“你这思考太假了”。
这论文一出来,网友们就要沉不住气了。
好你个苹果,市值经常性全球第一,资金这么多,结果AI啥都没做出来,到头来还说别人做的有问题。
一时间骂的人那是真多。
不过其实这论文倒也没咋批评现有模型的能力,而是指出了现有模型的一些缺陷以及希望人们在后面训练模型时能够建立更好的推理机制和评估方法。
而且,细读一下论文的结果,你会发现这模型思考和人类还挺像的呢。
所以这论文到底讲了啥呢?
论文内容
苹果团队认为现有模型测试的数据集只看结果对不对,但是很可能之前喂给模型训练的数据里面就有类似题目,指不定模型是直接背题的,跟思考没有半毛钱关系。
而且,现有评估缺少了对模型思考过程的评估和分析,比如中间步骤是否逻辑正确、是否绕弯子绕太大了。
为了解决这些问题,他们设计了一个可控的实验测试平台,通过打造算法谜题环境来评估LLMs的推理能力。
不同以往的测试之处在于,算法谜题的难度可以精确控制,研究者能够观察模型在不同复杂度下的结果变化,比如说每一步的决策是否正确、是否反复试错。
4种算法谜题
4种算法谜题的图长下面这样。
此任务的难度可以通过初始圆盘的数量来控制,n个初始圆盘所需的最少移动次数为2(n)-1。
此任务的复杂度可以通过跳棋的数量来控制,对于2n个跳棋,所需的最少移动次数为(n+1)(2)-1。
此任务的复杂度也可以通过调整角色/代理对的数量来控制。对于n=2、n=3对,使用k=2的船容量;对于更多对,使用k=3的船容量。
基于这个测试平台,团队进行了大量实验,对比“会思考”和“不思考”的模型。
三类复杂度
低复杂性任务:没有“思考”功能的标准语言模型实际上表现得更好,不仅更准确而且更加高效,不会浪费计算资源在不必要的思考上。这一发现直接挑战了“更多思考总是更好”的直觉假设。 中等复杂性任务:能够生成长思维链的推理模型开始显现优势,额外的思考过程的确能够帮助模型找到更好的解决方案。 高复杂性任务:两种模型的性能都完全崩溃。尽管推理模型在一定程度上延迟了性能崩溃,但最终仍无法避免。
横轴是消耗的token,纵轴是通过率。
第一竖排的图是低复杂度任务,DeepSeek-R1等思考模型消耗更多的token却取得更差的结果。
第二竖排的图是中复杂度任务,DeepSeek-R1等思考模型明显有了优势。
第三竖排的图是高复杂度任务,全都“躺平”了。
为啥会出现这种情况呢?实际上你会发现人类也是这样。
模型与人类的思考模型
苹果团队深入研究了模型的推理过程,发现了导致这些问题的原因。
低复杂性任务:在处理简单问题时,推理模型经常会在早期就找到正确的解决方案,但随后却继续探索各种错误的替代方案,“过度思考”浪费计算资源。
好家伙,像极了我考试第一印象写对了,结果再思考就会爆炸,直接把正确答案改错了,这确实很心态崩了。
中等复杂性任务:随着问题复杂度增加,这一趋势发生逆转,模型首先探索错误的解决方案,正确解决方案大多出现在思维的后期。
你想想以前考试的时候,往往有点难度的大题一般不会出错的。因为中间如果出错了直接没法继续写下去了,自然知道方法是错的,知道错了就会改方法。
高复杂性任务:对于更高复杂度的问题,会出现崩溃现象,即模型无法在思维中生成任何正确的解决方案。
这就是菜了,初中生怎么写出来高中压轴题呢?(超前学习的大佬除外)
现有推理模型的局限性
除上面提到的之外,团队还发现了一些莫名其妙的事情。
即使在提供了明确的解决方案算法的情况下,推理模型仍然写不出来。
相当于都告诉你解题步骤了,还做不出来,那这思考逻辑可能就真有些问题了。
这进一步凸显了推理模型在验证和遵循逻辑步骤解决问题方面的局限性,表明需要进一步研究以理解此类模型的符号操作能力。
不同谜题类型的推理差异:例如,Claude 3.7 Sonnet模型在汉诺塔问题中可以执行多达100步的正确移动,但在过河问题中却只能执行4步正确的移动。
有点意思,这模型有点“偏科”啊。
这可能表明模型在训练过程中对某些问题类型的接触较少。
结语
说实话,我觉得这篇论文还是有些用的。
论文发现了当前思考模型的一些缺陷并呼吁人们注意这些问题,而事实上这些缺陷在人类身上也出现过。
那么既然人类可以解决这些问题,模型自然也是可以解决的。
至于这篇论文为啥引发了这么大争议。
恐怕是大量不是很懂学术的人看了标题就开喷了,我的感受里苹果确实也在AI上没做出同等咖位的东西。
但大家吃瓜还是要理性一些,咱不能完全跟着情绪走对吧。
不能因为苹果没干出很牛的AI就觉得论文就没价值,一码归一码嘛。
往期文章
我是关注AI提效与AI智能体的辰星。
谢谢你看我的文章,也祝你在AI时代能找到自己真正想要的生活。
也可以链接我,领取之前我整理的AI相关的一些学习资源。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...