这些策略游戏是一个可以很好的考验语言模型的工具。
从资源调度,信息搜集,巨量token是否崩坏,MCP能力,战略决策能力上,能看出一个模型的综合能力.
上次只有两个模型是出彩的,一个是国产GLM ,另外一个是国外Claude SN 4.5,而DEEPSEEK属于是中等偏下那一桌
上次测评,DS的主要痛点是:
逐渐崩坏,一开始领先慢慢的变落后最后被反超
唯一一个主动投降的模型:
而今天晚上发布的v3.2,这些痛点都解决了,首先是thinking过程中调用工具,终于让think模型可以跑tools了而不用额外的<call_tools>
不过这个东西缺点也很明显,在我的MCP里面,我也不知道为什么,他会无限在think状态调用工具....希望后续官方能出一个限制调用工具次数的东西,否则他的所有输出全部在think里面而不在正常的回复里面了.
但是这些都不是重点,这次新版本,实测几次下来,无论是空间感,资源调度能力,还是MCP调用能力,还是逐渐崩坏的问题 都已经解决了! 并且价格居然还是那么低,低到我不得不连夜发这一篇文章的地步.
空间感:
之前ds最显著的问题是,他一个建筑,非要放到另外一个建筑旁边,他对x y z的把握非常非常差差,导致他想新建建筑,但是这个建筑被其他建筑占位了,他又想调整,导致死循环,这一点在建造农田和伐木场的时候尤其明显。
而经过多次测试,这次版本中解决了这个问题,至少农田不卡壳了...
伐木场的摆放顺序也非常正确
他的农田摆放居然懂得围绕磨坊来摆放,这以前版本是不可能的
资源调度能力
之前的一大痛点就是,他的村民调度能力实在是不行,经常出现十来个村民搁那空闲不干事。这次资源调度表现比之前好很多,经过多轮测试,他现在已经有意识的让村民保持干活状态了:
闲置率基本能保持在1-5个左右:
会主动让村民干活
而升级时代的速度,和资源的分数上,也是首次出现超过AI的水平
战略决策能力
GLM/Claude知道在封建时代派兵骚扰,城堡时代攻城武器攻击,并且建造箭塔进行防御,之前DS只会防御不会进攻,进攻也只是搞笑的几个骑士,也不会造攻城武器,而这次有了很大进步:
然后准备攻城武器:
标记地点,造攻城武器:
总的来说,有进步,但是没GLM/Claude那么聪明,这两个会直城,并且派兵骚扰,建造攻城武器联合进攻,造弓箭手。而DS更倾向于两个兵种,长矛兵和骑士。。。不知道为什么
价格
价格真的是这个模型最大的优势,在一场接近2小时的帝国时代2的MCP高强度调用后,我居然实际只花费了27块
所以别说好不好用,他价格就这样,这种价格,即便是代码写出bug了,也是我的问题
总结
从最终效果来看,进步非常之大,相当于从完全不能用的人机,变成了能跟帝国时代2里面的简单电脑切磋的水平.....虽然策略类游戏跟GLM和CLAUDE还有一段距离.但是考虑到价格因素,让我们继续拭目以待.....(话说回来,也就GLM和CLAUDE能打策略类游戏,GPT5也打不了)
当前DSV3.2和AI的比分,两个相似,相当 于是简单人机吧:
隔壁GLM的,碾压水平,起码相当于困难电脑:
现在这么便宜的东西都已经效果这么好了,已经迫不及待的等下一个大版本了
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...