高考成AI大模型的实战演练场

今年高考刚刚结束，AI大模型们也“偷偷交了一份卷子”——高考数学卷。

由「机器之心」发起的高考数学AI测评，多个主流大模型参与“考试”，检验它们的逻辑推理、计算、数学建模等能力。结果非常有意思：

去年，许多大模型在数学科目上还徘徊在100分左右，甚至基本操作都不稳。今年，整体分数大幅上升，大多数模型已能稳定考出130分以上，从“能答”进阶到“答得不错”。

可以说，AI在数学这类“冷启动难、高要求”的任务上，终于迈过了第一道门槛。

•Gemini 2.5 Pro 以 145 分位列第一•豆包 & DeepSeek 以 144 分并列第二，分差只有 1 分•Gemini Pro 在API调用中略胜一筹，拿下第一名

值得注意的是：豆包在 5 道大题里只丢 1 分，证明了长链推理的稳定性，不是“蒙对”而是真解出来。

更值得注意的是，这次测评不仅看API能力，还看实际产品体验。在另一场只测 14 道客观题的产品端测试里，豆包曾与腾讯元宝以 68/73 并列第一，说明它在API 调用与终端使用两种场景下表现一致，并非“只会跑分”。

这意味着：

•如果你是普通用户，直接用豆包，就能体验到真实强大的AI数学能力；•如果你是开发者，通过API接入豆包，也能获得一线大模型的计算与推理能力。

为什么高考数学这么重要？它不只是考计算，更考阅读理解、知识迁移和逻辑推理，这些恰恰是大模型目前最难攻克的几个领域。

所以，高考题能不能做得好，直接反映出模型“是不是聪明”、“能不能用”。

而这一次，我们确实看到了几款模型，已经不只是“能算”，而是“真能理解并解决复杂问题”。

推荐站内搜索：最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……

ZhouSa.com

还没有评论，来说两句吧...