DeepSeek V3.2策略游戏测试 | 进步很大 - 新鲜讯息

众所周知昨天DS发布了V3.2.据说是极大的提高了智商,所以我准备拿上次的帝国时代2游戏竞技场来复测一次。让AI通过MCP工具操作游戏, 玩策略游戏，最终打败对手:

这些策略游戏是一个可以很好的考验语言模型的工具。

从资源调度，信息搜集，巨量token是否崩坏，MCP能力，战略决策能力上，能看出一个模型的综合能力.

上次只有两个模型是出彩的，一个是国产GLM ，另外一个是国外Claude SN 4.5，而DEEPSEEK属于是中等偏下那一桌

上次测评,DS的主要痛点是:

逐渐崩坏,一开始领先慢慢的变落后最后被反超

唯一一个主动投降的模型:

还要其他的问题，比如空间感知问题(一个农田，非要叠到其他农田上去，导致建造失败->反复建造->建造失败....)

而今天晚上发布的v3.2，这些痛点都解决了,首先是thinking过程中调用工具,终于让think模型可以跑tools了而不用额外的<call_tools>

不过这个东西缺点也很明显，在我的MCP里面，我也不知道为什么，他会无限在think状态调用工具....希望后续官方能出一个限制调用工具次数的东西，否则他的所有输出全部在think里面而不在正常的回复里面了.

但是这些都不是重点，这次新版本，实测几次下来，无论是空间感，资源调度能力，还是MCP调用能力，还是逐渐崩坏的问题都已经解决了! 并且价格居然还是那么低,低到我不得不连夜发这一篇文章的地步.

空间感:

之前ds最显著的问题是,他一个建筑,非要放到另外一个建筑旁边,他对x y z的把握非常非常差差，导致他想新建建筑，但是这个建筑被其他建筑占位了，他又想调整，导致死循环，这一点在建造农田和伐木场的时候尤其明显。

而经过多次测试，这次版本中解决了这个问题,至少农田不卡壳了...

伐木场的摆放顺序也非常正确

他的农田摆放居然懂得围绕磨坊来摆放,这以前版本是不可能的

建造的时候已经学会正确的先观察有没有物体防止堆叠

资源调度能力

之前的一大痛点就是,他的村民调度能力实在是不行,经常出现十来个村民搁那空闲不干事。这次资源调度表现比之前好很多，经过多轮测试，他现在已经有意识的让村民保持干活状态了:

闲置率基本能保持在1-5个左右:

会主动让村民干活

而升级时代的速度,和资源的分数上,也是首次出现超过AI的水平

战略决策能力

GLM/Claude知道在封建时代派兵骚扰，城堡时代攻城武器攻击，并且建造箭塔进行防御,之前DS只会防御不会进攻,进攻也只是搞笑的几个骑士,也不会造攻城武器,而这次有了很大进步:

他的进攻计划,跟其他不同,他进攻之前一定要满科技:

然后准备攻城武器:

跟上次不同，他现在会袭扰农民战术:

派出的部队:

不过有点搞笑,派出的部队走得太慢打不到敌人，背后跟了一堆野生动物

然后这些部队被野生动物吃掉了

标记地点,造攻城武器:

总的来说,有进步,但是没GLM/Claude那么聪明,这两个会直城，并且派兵骚扰，建造攻城武器联合进攻，造弓箭手。而DS更倾向于两个兵种，长矛兵和骑士。。。不知道为什么

价格

价格真的是这个模型最大的优势，在一场接近2小时的帝国时代2的MCP高强度调用后，我居然实际只花费了27块

而同样的模型GLM花费200左右，claude花费了1200人民币，还是用了1rmb=1美刀的中转站。要不然我就直接破产了。

所以别说好不好用，他价格就这样，这种价格，即便是代码写出bug了，也是我的问题

总结

从最终效果来看，进步非常之大，相当于从完全不能用的人机，变成了能跟帝国时代2里面的简单电脑切磋的水平.....虽然策略类游戏跟GLM和CLAUDE还有一段距离.但是考虑到价格因素，让我们继续拭目以待.....(话说回来，也就GLM和CLAUDE能打策略类游戏，GPT5也打不了)

当前DSV3.2和AI的比分,两个相似,相当于是简单人机吧:

隔壁GLM的,碾压水平,起码相当于困难电脑:

现在这么便宜的东西都已经效果这么好了，已经迫不及待的等下一个大版本了

推荐站内搜索：最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……

宙飒天下网-ZhouSa.com

正文

DeepSeek V3.2策略游戏测试 | 进步很大

相关阅读

超2万+ Star，国产开源企业级AI智能体平台，支持DeepSeek、Qwen，涵盖基础问答RAG、复杂工作流Workflow、智能体Agent

2025年人工智能安全十大事件盘点

DeepSeek最新论文 mHC：流形约束超连接

从DeepSeek看未来大模型技术发展与落地

发表评论取消回复

还没有评论，来说两句吧...

目录[+]