CNCC 2025视觉智能邂逅多模态：从感知到理解论坛在哈尔滨举行

10月22日下午，CNCC 2025“视觉智能邂逅多模态:从感知到理解”论坛在哈尔滨华旗饭店3层308顺利举行。本次论坛聚焦视觉智能与多模态的协同发展，围绕多模态信息对齐与特征融合、协同感知、表征与推理、以及生成与交互等关键问题，结合大规模预训练与生成式人工智能的最新进展，探讨从单一感知走向复杂语义理解与决策的实践路径。论坛汇集了来自天津大学、武汉大学、哈尔滨工业大学的学者，分别围绕多模态表征学习与推理，多模态图像融合与协同感知技术，多模态视觉生成、编辑与交互技术展开主题报告与交流，展示了跨模态对齐、任务联动与开放环境下泛化能力提升在智能系统中的作用，为多模态人工智能的落地应用提供清晰的技术思路与可操作经验。此次论坛由哈尔滨工业大学江俊君教授和江奎副教授担任共同主席。

第一阶段由天津大学教授张长青作《多模态表征学习与推理：理论、技术与应用》主题报告。报告围绕多模态数据在广泛领域的重要应用，面向科学发现、医疗诊断、机器人等场景，分析不同模态信息的互补性、冗余性、动态性、不平衡与不完整对融合效果的影响，探讨在不确定性条件下的表征与推理路径，重点介绍面向低量多模态数据的理论框架、方法与应用示例。

第二阶段由武汉大学教授马佳义作《多模态图像融合与协同感知技术》主题报告。报告围绕实际应用的图像融合技术为主线，系统介绍未配准融合、文本驱动的退化鲁棒框架、视觉语义协同感知与通用融合方法，并以安防监控、遥感监测、智慧医疗等场景展示其在公共安全、环境感知与辅助诊断中的价值。

第三阶段由哈尔滨工业大学左旺孟老师作《多模态视觉生成、编辑与交互技术》主题报告。报告从介绍文生图像、文生视频与文生3D的最新进展开始，重点梳理扩散与自回归两类生成模型，展示身份保持、布局控制、动作与相机运动等维度的可控生成技术；同时涵盖多模态视觉编辑、Agentic生成与交互式编辑，并讨论相关伦理与安全议题。

“视觉智能邂逅多模态：从感知到理解”论坛的成功举办，不仅为多模态与视觉智能的研究与应用带来清晰思路，也为高校与产业搭建了高效的交流平台。展望未来，论坛将继续面向表征与推理、协同感知、生成与交互等方向推进合作与实践，推动方法、数据与工具的开放共享，促进多模态人工智能在真实场景的落地与健康发展。

点击“阅读原文”，加入CCF。