人工智能正从处理单一模态信息迈向融合视觉、语言等多重信号的跨媒体推理新纪元,这一转变旨在模拟人类大脑综合感知与深度思考的认知过程。以大语言模型为基石,当前技术通过将语言作为“通用接口”,初步实现了跨模态语义对齐与互补,在多项任务中展现出潜力,成为推动AI具备更高级、更通用推理能力的前沿焦点。
然而,构建真正可解释、可泛化的跨媒体推理机制仍面临严峻挑战。现有模型大多依赖于数据中的表面统计关联,缺乏深层次的逻辑推理能力,导致其在面对未知场景时泛化能力不足。同时,如何超越简单的模态对齐,实现信息间的深度语义融合,并让模型的决策过程变得透明可信,是阻碍其应用于高风险决策领域的核心瓶颈。
本论坛将聚焦以上关键挑战,深入探讨三大重点议题:一是机理创新与泛化能力,如何设计新架构使AI获得“举一反三”的推理能力;二是深度融合与对齐,如何实现超越浅层关联的本质性语义理解与统一表征;三是可解释性与可靠性,如何构建透明化的推理链条以确保决策的可靠与可信。我们期待通过顶尖学者的思想碰撞,共同勾勒跨媒体推理大模型的未来发展路径。
论坛安排
论坛名称:跨媒体推理大模型
日程安排:2025年10月25日 13:30-17:30
举办地点:华旗饭店-5层501
注:如有变动,请以官网(https://ccf.org.cn/cncc2025)最终信息为准
顺序 | 主题 | 主讲嘉宾 | 单位 |
1 | 论坛致辞 | 庄越挺 | |
2 | 基于感知、推理与生成的空间智能 | 彭宇新 | 北京大学 |
3 | 多模态大模型的高效训推及推理能力增强 | 刘静 | 中国科学院自动化研究所 |
4 | 从抽象到具象:大模型中的多模态推理技术演进 | 车万翔 | 哈尔滨工业大学 |
5 | 从多模态大模型到具身智能的发展启发 | 宋井宽 | 同济大学计 |
6 | 鹏城大圣系列基础模型及其应用实践 | 陈轲 | 鹏城实验室 |
7 | Panel | 王耀威 | 哈尔滨工业大学(深圳)/鹏城实验室 |
彭宇新 | 北京大学 | ||
刘静 | 中国科学院自动化研究所 | ||
车万翔 | 哈尔滨工业大学 | ||
宋井宽 | 同济大学计 | ||
陈轲 | 鹏城实验室 | ||
韩亚洪 | 天津大学 |
论坛主席
庄越挺
教育部人工智能协同创新中心主任、浙江大学教授
国家杰出青年基金获得者,教育部长江学者特聘教授,973项目首席科学家,“百千万人才工程”国家级人选,享受国家政府特殊津贴,中国人工智能学会会士,中国图像图形学学会会士,浙江省特级专家。现任浙江大学学术委员会副主任,中国人工智能学会副理事长,浙江大学求是特聘教授,教育部人工智能协同创新中心主任,数字图书馆教育部工程研究中心主任,浙江省计算机学会理事长。曾任浙江大学计算机学院院长,浙江大学人工智能研究所所长,中国图像图形学学会副理事长。主要从事人工智能、大数据智能处理、多媒体信息检索、跨媒体计算理论等领域的研究。作为第一完成人,曾获国家科技进步奖二等奖、浙江省科技进步奖一等奖等多项奖励。庄老师是CCF高级会员,并担任中国计算机学会(CCF)2018中国计算机大会(CNCC 2018)程序委员会主席。
论坛讲者
彭宇新
CCF杰出会员,北京大学二级教授、博雅特聘教授
CCF多媒体专委会常委,CAAI/CIE/CSIG Fellow,国家杰出青年科学基金获得者,国家万人计划科技创新领军人才,科技部中青年科技创新领军人才,863项目首席专家,中国工程院“人工智能2.0”规划专家委员会专家,中国人工智能产业创新联盟专家委员会主任,中国图象图形学学会副秘书长、提名与奖励委员会副主任,北京图象图形学学会副理事长,北京大学二级教授、博雅特聘教授。主要研究方向为多媒体分析、计算机视觉、人工智能。以第一完成人获2016年北京市科学技术奖一等奖和2020年中国电子学会科技进步奖一等奖。主持863项目、国家自然基金重点项目等40余项,连续四年(2021-2024)入选全球前2%顶尖科学家,发表ACM/IEEE Trans.和CCF A类论文160余篇。
报告题目:基于感知、推理与生成的空间智能
摘要:空间智能是人工智能突破二维感知并迈向三维物理世界的关键技术路径,旨在突破空间感知、推理与生成三大关键技术,最终支持智能体实现三维世界的理解与交互。报告首先分析了空间智能的发展脉络与现有挑战:感知方面存在细粒度识别与运动分析不足;推理方面存在结构错误、效率低下与高延迟;生成方面存在空间布局与物理规律不合理等问题。围绕上述挑战,报告介绍了团队在空间感知、推理与生成三方面的研究布局与进展:首先通过人体、物体及场景的细粒度识别、定位与点云分析,增强细粒度感知能力;然后通过视觉搜索、关系推理与端侧模型加速提升推理预测精度和效率;最后通过空间布局、三维场景和视频生成增强虚拟世界生成能力。上述关键技术已在自动驾驶、视频生成、国土监测等领域实现应用,推动空间智能技术赋能行业应用。最后,报告从全维度细粒度感知、4D世界建模、群体具身智能等方面对空间智能的未来发展进行了展望。
刘静
中国科学院自动化研究所研究员
国家优秀青年科学基金获得者,中国科学院大学岗位教授。主要研究方向为多模态分析理解,带领团队研发了国际首个图文音多模态大模型“紫东太初”。相关成果荣获2022年中国电子学会自然科学一等奖,2018年中国图象图形学学会科学技术二等奖,2022年世界人工智能大会卓越人工智能引领者奖,2023年中国算力大会突破成果奖等。承担或参与十余项国家自然科学基金项目、国家973项目、国家基金重大研究计划、国家重点研发项目、新一代人工智能国家科技重大专项等。连续两年(2022-2023)入选全球前2%顶尖科学家,已发表高水平学术论文近200篇,谷歌学术引用18000+次,SCI他引9000+次。
报告题目:多模态大模型的高效训推及推理能力增强
摘要:随着多模态大模型(MLLMs)在诸多感知任务上趋近性能瓶颈,其沉重的计算负担与落地成本已成为制约其迈向通用人工智能的关键壁垒。本报告聚焦“快训推”与“强推理” 的两个核心问题,旨在探讨如何在有限的计算资源下,实现多模态大模型的高效计算,进一步增强其核心的深度推理能力。我们将系统阐述从模型架构设计、训推策略到后训练增强等方面,为实现低成本、高性能的多模态认知智能提供技术路径与实践洞察。另外,还将简单介绍团队在相关方向的最新研究成果,并展望未来发展方向与潜在挑战。
车万翔
哈尔滨工业大学长聘教授
哈尔滨工业大学计算学部长聘教授/博士生导师,人工智能研究院副院长,国家级青年人才,斯坦福大学访问学者。主要研究领域为自然语言处理、大语言模型。现任中国中文信息学会理事、计算语言学专业委员会副主任兼秘书长;国际顶级会议ACL 2025程序委员会共同主席。曾任国际计算语言学学会亚太分会(AACL)执委兼秘书长。承担国家自然科学基金重点项目和专项项目、2030“新一代人工智能”重大项目课题等多项科研项目。著有《自然语言处理:基于预训练模型的方法》一书。曾获AAAI 2013最佳论文提名奖。负责研发的语言技术平台(LTP)已授权给百度、腾讯、华为等公司付费使用。2024年获中国人工智能学会吴文俊人工智能科技进步一等奖(排名第1),2020年获黑龙江省青年科技奖,2016年获黑龙江省科技进步一等奖(排名第2)。入选斯坦福大学和爱思唯尔发布的2024-2025年度“全球前2%顶尖科学家”榜单。
报告题目:从抽象到具象:大模型中的多模态推理技术演进
摘要:近年来,大语言模型(LLMs)在复杂推理任务中表现出卓越的能力,其中“思维链”(Chain-of-Thought, CoT)技术扮演了关键角色。该技术通过引导模型生成一系列中间推理步骤,显著提升了其解决纯文本问题的准确性。然而,现实世界充满了图像、声音、视频等多模态信息,单纯依赖文本的推理范式已无法满足日益复杂的应用需求。为了突破这一局限,多模态思维链(Multimodal Chain-of-Thought, MCoT)应运而生。MCoT将CoT的逐步推理能力从单一的语言模态,扩展至一个融合了文本、视觉等多种信息类型的感知与推理综合框架。它旨在模仿人类结合多种感官进行深度交互的自然过程,通过将感知复杂多模态问题输入,并将推理逻辑分解为一系列可解释的跨模态推理步骤,最终生成更为精准和可靠的结论。本报告首先将介绍多模态思维链的定义与相关数据基准;随后系统性地梳理现有技术方法的分类与范式,并深入剖析其核心运作机理;最后,将探讨该领域面临的主要挑战,并对未来的研究方向做出展望。
宋井宽
同济大学教授
国家“青年特聘专家”,国家杰出青年科学基金获得者。主要研究方向为多媒体理解。主持自然科学基金委重点、科技部重点研发课题等多项国家级项目。在多媒体、计算机视觉、人工智能等领域的重要会议和期刊发表论文180余篇,曾获2016年ICPR最佳论文奖、2017年ADC最佳学生论文奖、2017年SIGIR最佳论文提名奖、2020年多媒体最具影响力学者提名、2021年ACM SIGMM学术新星奖,谷歌学术引用17000余次。
报告题目:从多模态大模型到具身智能的发展启发
摘要:多模态大模型是指在一个统一的框架下,集成了多种不同类型数据处理能力的大型神经网络模型。这些模型能够处理图像、文本、音频等不同的数据模态,并在这些模态之间进行有效的交互和信息整合。ChatGPT及其变种的问世展现了大型语言模型(LLM)及MLLM的突破,不仅激发了对大模型在各行各业应用的无限想象,也将“具身智能”推到了聚光灯下,引发了对机器如何更自然地与人类及环境互动的深入探讨。具身人工智能(Embodied AI)对于实现通用人工智能(AGI)至关重要,并且是连接网络空间和物理世界的各种应用的基础。本报告梳理了从多模态大模型到具体智能的发展历程,提出了针对智身智能中目前挑战的一些思考。
陈轲
鹏城实验室副研究员
感知智能研究所所长助理,新一代人工智能产业技术创新战略联盟(AITISA)低空智慧标准工作组联合组长。主要研究方向包括多模态智能感知方法、关键技术及其在空天地海感知网的应用实践。主持国家级、省部级纵向项目/课题、产业界横向课题十余项,个人承担经费累计两千余万元。发表SCI期刊和EI会议论文百余篇,其中CCF-A类或SCI 1区论文五十余篇。
报告题目:鹏城大圣系列基础模型及其应用实践
摘要:在当前AI模型规模化发展的浪潮下,GPU算力资源成为构建基础模型的研发引擎。国际AI科技竞争激烈,虽然我国国产算力水平持续提升,但仍面临显著挑战。面对资源约束这一核心挑战,业界正积极探索通过模型架构与训练算法的创新实现突破。鹏城实验室感知所团队长期深耕资源受限下的基础模型研发与应用,通过研究轻量化、扁平化的基础模型架构和基础模型增量学习方法,自主研发了鹏城大圣系列基础模型,涵盖 视觉、多模态及电磁感知三大方向。这些实践验证了“有限算力+算法创新”发展路径的可行性,在显著降低训练和推理成本的同时,实现了模型性能的有效提升。基于鹏城大圣基础模型,团队构建了产业赋能自动化模型生产平台,有效支撑了低空经济、城市态势感知、空天遥感等重点应用的智能化升级。
嘉宾
王耀威
哈尔滨工业大学(深圳)教授
鹏城实验室网络智能研究部副主任兼感知所所长,国家高层次人才。致力于人工智能、大规模视频智能感知领域研究,在顶级国际期刊/会议发表论文百余篇,获授权专利50余项,曾承担国家/省部级项目20余项,曾获国家技术发明二等奖、中国电子学会科技进步一等奖和技术发明一等奖、广东省科技进步奖特等奖。担任IEEE TCSVT编委、中国人工智能学会具身智能专委会常务委员、IEEE数字视网膜系统工作组主席、新一代人工智能产业技术创新战略联盟 AI 标准工作组“数字视网膜系统”专题组组长,牵头制定数字视网膜端边云协同技术系列标准。
韩亚洪
天津大学教授
研究方向为多媒体内容理解和人工智能安全。2012年3月博士毕业于浙江大学计算机学院,同年加入天津大学被聘为副教授,2014-2015年加州大学伯克利访问学者,2016年在天津大学破格晋升正教授,2021年被聘为天津大学英才教授。曾入选教育部新世纪优秀人才支持计划,指导博士生获得中国图象图形学学会优秀博士学位论文奖,近年来承担国家重点研发和自然基金重点等研究任务。
CNCC2025
CNCC2025将于10月22-25日在哈尔滨举办。专题论坛将在往年多样化主题的基础上,首次通过“基础-前沿-未来”的一体化设计,满足不同背景参会者的需求,构建从知识获取到创新激发的完整路径,打造系统化、进阶式的参会体验。重点设置9大主题板块,每个主题板块的专题论坛由三大核心模块组成:面向前沿领域的体系性Tutorial、聚焦前沿突破的专题论坛以及探讨未来发展路径的思辨论坛。
点击“阅读原文”,进入官网。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...