今年高考刚刚结束,AI大模型们也“偷偷交了一份卷子”——高考数学卷。
由「机器之心」发起的高考数学AI测评,多个主流大模型参与“考试”,检验它们的逻辑推理、计算、数学建模等能力。结果非常有意思:
整体进步明显,130分成“新起点”
去年,许多大模型在数学科目上还徘徊在100分左右,甚至基本操作都不稳。今年,整体分数大幅上升,大多数模型已能稳定考出130分以上,从“能答”进阶到“答得不错”。
可以说,AI在数学这类“冷启动难、高要求”的任务上,终于迈过了第一道门槛。
细看分数,第一梯队格局初现
•Gemini 2.5 Pro 以 145 分位列第一•豆包 & DeepSeek 以 144 分并列第二,分差只有 1 分•Gemini Pro 在API调用中略胜一筹,拿下第一名
值得注意的是:豆包在 5 道大题里只丢 1 分,证明了长链推理的稳定性,不是“蒙对”而是真解出来。
更值得注意的是,这次测评不仅看API能力,还看实际产品体验。在另一场只测 14 道客观题的产品端测试里,豆包曾与腾讯元宝以 68/73 并列第一,说明它在API 调用与终端使用两种场景下表现一致,并非“只会跑分”。
这意味着:
•如果你是普通用户,直接用豆包,就能体验到真实强大的AI数学能力;•如果你是开发者,通过API接入豆包,也能获得一线大模型的计算与推理能力。
数学,是AI理解能力的“分水岭”
为什么高考数学这么重要?它不只是考计算,更考阅读理解、知识迁移和逻辑推理,这些恰恰是大模型目前最难攻克的几个领域。
所以,高考题能不能做得好,直接反映出模型“是不是聪明”、“能不能用”。
而这一次,我们确实看到了几款模型,已经不只是“能算”,而是“真能理解并解决复杂问题”。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...