本文基于CCF YOCSEF深圳和香港分论坛以“从DeepSeek看未来技术发展与落地”为主题的CLUB活动,梳理了DeepSeek面临的机遇和挑战,提出了应对困境的具体建议。
2025年新春伊始,DeepSeek横空出世,为中国新春注入浓墨重彩的科技气息。作为人工智能(artificial intelligence, AI)领域现象级新科技成果,DeepSeek借助前所未有的强大性能、应用空间引领技术创新风向,开启了科技强国的新起点、新征程和新业态。DeepSeek凭借其跨领域技术融合的优势赋能新能源,利用强大的问题理解能力,将不同领域的技术相融合,不仅担负起了促进科技发展的重要任务,还不断开辟着新的方向。DeepSeek是中国原创性的重大技术突破,不仅带来研究理念和技术模式的创新突破,更从单一分析到多领域综合研究带来了科学研究方法的重大变革,同时成为发展新质生产力,赋能数字经济和实体经济深度融合的重要力量。如何深度发挥、有效释放DeepSeek平台上算法升维、场景化、生态圈、人才培养等各环节产生的“化学”效应,有效服务于智能制造、量子计算、5G等行业领域的创新发展,实现科研研发能力的质跃迁,以及研发生态的繁荣生长,并助力各类科学知识和科技成果安全地高效发布,是各方关心与研究的重要议题之一。
2025年2月22日,中国计算机学会青年计算机科技论坛(CCF YOCSEF)深圳分论坛和香港分论坛在深圳西丽大学城清华大学深圳国际研究生院联合组织了以“从DeepSeek看未来技术发展与落地”为主题的俱乐部(CLUB)活动(图1)。作为深港联合开年首场高规格学术交流活动,本次活动汇聚了来自顶尖高校、科研机构、科技企业及创新平台的百余位专家学者,围绕大模型技术演进与产业落地展开深度对话。
图1 “从DeepSeek 看未来技术发展与落地”活动合影
活动包括两个核心环节:一是技术专题报告,与会专家聚焦“强化学习与大模型优化”“大模型高效个性化图像生成”“大模型深度推理”“大模型应用场景”以及“大模型自动化软件工程”等前沿议题,通过案例剖析系统梳理了大模型技术从理论创新到工程实践的完整链条。二是思辨研讨环节,与会嘉宾围绕“DeepSeek核心技术与产业赋能的深度思考”“学术界科研范式的影响和启示”以及“如何看待学术研究与技术落地”这3个关键思辨议题展开了关键思辨,提出许多启发性的观点,并达成诸多共识。
本次CLUB活动不仅深刻剖析了以DeepSeek为代表的大模型技术及其应用,更就未来人工智能等核心技术的创新突破、产业赋能与生态构建等关键问题展开前瞻性对话,为推动我国未来科技的发展与落地提供了宝贵的智慧支持。
DeepSeek等大模型核心技术与应用
DeepSeek的技术演进可追溯至2010年前后,深度学习技术的崛起为人工智能的快速发展奠定了基础。随着技术的不断进步,2020年Transformer架构的广泛应用为国产大模型的研发提供了关键支持,标志着全球人工智能技术的重大突破。DeepSeek公司深刻把握这一历史性机遇,通过持续创新和攻坚克难,成功突破了大规模模型的技术瓶颈。此次活动中,与会嘉宾从不同角度分享了他们对DeepSeek及其他大模型核心技术与应用的独到见解。
优化大模型推理能力是提升AI性能的关键路径。据清华大学教授袁春介绍,强化学习(reinforcement learning, RL)是一种能改变大模型输出行为的训练技术,但需要针对不同目的、任务选择不同的RL算法:如对于需要逻辑严谨性的任务(精准医学与疾病诊断、金融市场),采用人类反馈强化学习(RL from human feedback, RLHF)等受控性较好的优化算法,经过严格的“初始训练+微调+偏好对齐”三阶段训练输出结果;而针对创意生成、开放问答等自由度高的输出型任务,则可以根据需求采取更多样化的优化方案探索大模型的新范式。同时,袁春结合“ iPhone 18尺寸预测”实例展示了解决大模型“幻觉”问题的方式,并提出了多段式、多策略集成融合的推理过程,最终实现一种能提供更加严密周全的“构造大脑”的方式。在袁春看来大模型优化训练需有“因类制宜”的方法论,即在大框架的基础上根据场景目标选择相应的训练框架与范式方法,如直接偏好优化(direct preference optimization, DPO)、近端策略优化(proximal policy optimization, PPO)、熵正则化策略优化(entropy-regularized policy optimization, EPO) 等,推动大模型落地实践。
对大模型进行训练优化是大模型技术发展的关键之一。复旦大学教授邱锡鹏指出,需要根据具体问题寻找不同的解决思路。比如在算力和数据条件有限的情况下,可以考虑采用类似“目标与关键成果(objectives and key results, OKR)时间套”这样的新方法,把复杂任务拆解成多个步骤来提高推理效率;而在改进模型本身时,则应更多借助强化学习技术——例如DeepSeek-V3和DeepSeek-R1所采用的策略优化方式。只有针对不同环节的具体难点采取相应措施,才能从整体上提升大模型的能力,尤其是在推理当前还存在明显短板的模型方面。这其实也说明,发展大模型技术需要树立“以问题为导向”的思维。举个例子,在计算资源紧张时,就着重研究如何分解任务;在优化模型训练时,就去思考怎样设计奖励机制或初始化策略。沿着这样的路径,大模型技术有望实现更显著的进步。不过也要看到,像可读性、泛化能力不足以及数据偏差等问题,仍然需要持续的探索和努力才能真正解决。
推动多模态图像生成技术发展是AI创新的重要方向。南开大学教授程明明对此的见解是:“不同内容生成,要针对不同的优化,选择不同的方法进行迭代;对于追求较高保真度的内容(图像),应加强对扩散模型等相关内容的要求以保证输出;但对更具个性的内容则无须如此,可以考虑应用类似混合自动编码器(mashed autoencoders, MAE)等方法,更快速地完成生成即可。”真正了解技术特点,才可以取得最好的效果。需要结合每个领域的具体情况来给出合理的解决办法,在不同的条件下选用合适的生成方式和相关技术是今后研究的重点方向。这就是说在不同的应用情况下,要有不同的选择方案。例如,对于一些专业性很强的应用场景,比如影视剧制作等,就更要强调高质量视频生成中的稳定性和高品质等,要重视这时自注意力等机制对所产生视频的输出控制,以确保最终输出的质量。而对于更多的“百姓文化”“娱乐消遣”等领域,完全可以放弃部分输出控制而采用如潜在空间的线性插值等方法予以解决,这将更好地为全面开展多模态的图像生成研发奠定基础。
实现大模型普惠化应用的核心在于成本与价值的精准平衡。香港中文大学(深圳)教授王本友提到,不同行业的商业模式要根据其价值特点来设计。比如在医疗、教育这类高价值专业领域,重点要做出精准的服务,形成收益闭环;而面向大众的服务,则要靠技术创新来压低成本。只有摸清不同领域的经济特性,才能做出可持续的商业模式,避免“规模大了反而不赚钱”的困境。未来发力点应该放在技术实用和商业可行相结合上。大模型落地要分情况施策——像医疗诊断这种专业场景,就要做好质量把控、减少“AI幻觉”,用高附加值服务支撑成本;而多语言服务这类全球化应用,可以通过开源方案和优化硬件来降低边际成本,实现普惠推广。随着多模态技术发展和阿拉伯语等小语种支持的推进,大模型会越来越贴近日常使用。但在这个过程中,也要同步建立相应的治理机制,比如医疗责任的认定、内容版权归属等问题,让技术创新和商业伦理能够共同推进。DeepSeek是一个新的多模态大模型,这一系列新技术的出现和普及将突破当下大模型图片生成的技术瓶颈,但同样需要及时管控技术发展引发的不当后果。
构建可持续的大模型商业化模式是企业落地的关键挑战。亚马逊教育行业总监刘东屏表示不能照搬复制使用方式,在服务于医疗、金融这样的单价较高和专业技术性强的行业时,应提高速度与准确性,在降低运营成本的同时找到一个商业模式。根据技术门槛、性能要求和性价比上的差异化需求,找到不同行业的商业模式会解决当前“规模不经济”的问题。通过持续跟踪,突破性能瓶颈,实现商业化的高性价比。因此,需要根据大模型落地应用场景的不同侧重点,将用于解决不同行业的不同模型精准、合理地落地,并找到合适的应用:一方面在某些高专业性需求的行业中,如医生做治疗进展判断时,将提高精度作为手段用来覆盖成本;另一方面,对没有很高专业要求却希望降低成本并且数据量较大的领域,如自动生成代码,在确保准确性的情况下改变平台硬件以达到降低成本的效果。伴随更多模态的发展,大模型要强调技术与人工关系的重要性,才能得到进一步工程化的进步。
从DeepSeek看未来大模型技术发展与落地
DeepSeek的成功不仅是一次从算法迭代到系统创新和变革性落地的壮举,也蕴含了关于未来技术(特别是大模型)的全新思考路径。现阶段的大模型技术已经具备较为复杂和精细推理的初步能力,并向着多模态智能发展方向快速演进;然而,大模型在计算资源有限、数据质量不高和应用环境零散等问题上面临的机遇与挑战是不言而喻的;它的成功向研究者与投资人抛出了深刻的启示:技术创新并不仅仅是算法层面的超越,更需要将组织管理形式、产业及终端客户应用需求、投资资金以及客户体验等共同融入大模型研发运营的创新体系之中。
思辨嘉宾结合DeepSeek系列相关技术讨论对未来大模型技术和发展的战略方向和目标:技术的“平民化”已经成为大模型普及的首要任务。何健飞认为,Deepseek的成功一方面在于跨学科人才的精诚合作与高效协同,另一方面在于找到了可行的技术路线和商业模式路径。“应该打破学术研究到产品部署的一堵墙”,王世娴分享了真实场景的问题会反哺技术发展的理念;“敏捷开发、开放模式能加速大模型的更新升级,并让模型尽快服务于现实场景。”哈尔滨工业大学(深圳)教授漆舒汉补充道。
在商业化方面,深圳职业技术大学教授杨金锋讨论了大模型与资本的关系,建议平衡技术创新和商业可持续发展,通过降低算力开销、对接正确场景和构建良好的治理环境来培育良性的发展生态。深圳大学教授陈小军补充指出,大模型将使中小企业有廉价的机会进行创新,为行业变革提供更多可能。DeepSeek是一件现象级的事件,让中国人更有信心、激情拥抱创新。它的成功不仅在中国产生了深远影响,也在国际社会获得了广泛称羡,为中国乃至世界开拓了一条兼顾高效率、市场化与合作性的新赛道。DeepSeek利用算力瓶颈逼迫出算力优化,迸发出强大的创造力,实现产业化应用腾飞;通过开源让全人类共享成果,让更多企业及人群有机会享受到其带来的便利。
当前,我们正处在技术发展的关键转折点。大模型的发展重点,已从早期的“证明能力”转向了真正的“创造价值”。DeepSeek的实践表明,一项技术只有紧密结合真实需求,解决实际问题,才能发挥出它应有的变革力量,成为推动经济社会进步的动力。未来,要想让大模型从实验室走向各行各业,成为赋能千行百业的基础工具,我们需要持续推动跨学科的合作,构建更完善的技术生态。这是一个从技术领先到产业普惠的必然过程。
结束语
DeepSeek作为一种现象级创新成果,极大提振了我国科技创新的信心和士气。其成功不仅在国内外科技界产生了深远影响,更为全球技术发展开辟了一条兼顾效率、市场活力与生态协同的崭新道路。DeepSeek通过突破算力瓶颈,实现了算法优化的革命性进展,释放出巨大的创新潜力,推动了技术的市场化进程。在开源协作的框架下,它为全球范围内的技术普惠提供了可能,让更多的人和企业能够共同受益于这一先进技术。
DeepSeek的成功指明了AI产业的转型方向,其更深层的意义在于为第四次工业革命的技术应用提供了普适性原则。这一技术路径证实,算法与工程的创新能对算力成本产生颠覆性影响,从而为中小企业及发展中国家提供新的发展机遇。未来的技术突破将更依赖于智能资源的优化配置能力,而非单纯的资本投入,这或将重塑未来科技竞争的格局。
陈科海
CCF专业会员。哈尔滨工业大学(深圳)教授。主要研究方向为大模型与自然语言、智能体、多模态、可信推理。[email protected]
孟子立
CCF专业会员。香港科技大学助理教授。主要研究方向为计算机网络和低延迟媒体传输。[email protected]
张海刚
CCF专业会员。深圳职业技术大学副研究员。主要研究方向为计算机视觉。[email protected]
本文发表于2025年第8期《计算》。
点击“阅读原文”,加入CCF。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...