具身智能,作为人工智能迈向物理世界的核心技术,正在打破虚拟与现实的边界。通过赋予AI以感知、行动、学习的闭环能力,具身智能正在重塑算法、系统和应用之间的关系,推动从虚拟仿真到实体执行的全方位技术跃迁。
5月23日下午,由CCF YOCSEF上海24-25主席邱锡鹏,秘书长刘斐担任执行主席的“虚实共生:如何寻找具身智能的Scaling Law?”论坛在CCF YEF2025大会期间顺利召开。本次论坛以“Scaling Law”为核心议题,深入探讨如何实现具身智能的大规模训练和实际部署。论坛汇聚智能感知、跨模态交互、自主决策与控制等领域专家,解读具身智能技术的前沿进展与创新实践。剖析Scaling Law在具身智能中的关键作用,探索大规模数据训练、高效模型优化与资源利用的深层逻辑。研究从虚拟到真实环境的迁移方法,讨论硬件与算法的协同进化及未来趋势。展望具身智能在机器人、智能制造、医疗康复、教育科技等领域的应用潜能,推动产业化落地。
本次论坛邀请到了清华大学苏航副研究员、上海交通大学蔡盼盼副教授、香港大学李弘扬助理教授、北京邮电大学方斌教授、YOCSEF广州分论坛24-25主席/中山大学李冠彬教授、北京超算刘爽行业总监进行报告分享,YOCSEF总部副主席/北京交通大学金一教授参加了Panel讨论。
论坛首先由YOCSEF上海24-25主席邱锡鹏开场。锡鹏介绍了本次论坛的整体背景,并介绍了YOCSEF上海情况。论坛技术分享环节由刘斐主持,五位行业专家分享了最新的研究成果。
上海交通大学蔡盼盼副教授的《常识性具身决策》报告,研究智能体在不确定环境(如非结构化室内服务)的决策。核心是利用大语言模型处理开域不确定性(指令模糊、物品开放),结合Tru-POMDP更新信念;并提出UniDomain方法,通过学习视频数据自动生成大一统PDDL规划域,解决复杂约束与LLM编写困难,实现组合泛化与虚实结合,形成适应开放环境的决策系统。
香港大学李弘扬助理教授的报告《Towards Generalizable Robotic Manipulation for Targeted Scaling Law》中提出构建通用操作系统的关键路径:建立自动化分级评测基准;通过人机协同数据采集构建广谱AgiBot World数据集;开发任务中心潜在动作模型UniVLA优化机器人编码器,提升策略泛化性;创新采用直播形式展示PI与DYNA系统,推进机器人操作的规模化泛化能力发展。
中山大学李冠彬教授在《感知与记忆增强的视觉语言导航》报告中聚焦“跨模态目标定位与受限视角感知”—具身视觉语言导航的核心挑战,提出利用导航上下文增强定位,并通过跨模态匹配模拟场景直觉优化目标搜索。针对第一视角感知局限,倡导多模态多视角特征融合及感知决策联合优化。报告指出迭代式视觉语言导航为未来方向,并介绍了其关键执行机制,并提出长程连续导航及低空导航新任务。
清华大学苏航副研究员的报告《数据驱动的具身智能探索:多源融合与规模化演进》指出数据是具身智能泛化能力的核心驱动力,通过跨环境、跨本体的强化学习统一训练实现策略迁移。构建扩散策略基座模型RDT整合大规模人手数据集并开源,开发ManiBox仿真平台验证数据规模与泛化的幂律关系。提出AnyPos无监督框架采集运动数据,证明算法性能由数据规模决定。
北京超算的刘爽报告题目是《具身智能模型应用运行特征》,分析了具身智能模型运行特征,通过性能数据采集与仿真测试揭示应用瓶颈及峰值规律,提出基于特征的性能预测与智能选型方法。介绍了算力服务升级方案,构建覆盖AI全场景的一站式服务平台及MaaS模型广场,优化算力资源适配以支撑前沿模型高效运行。
茶歇之后,论坛的下半场针对三个问题展开了深入的思辨讨论。与会嘉宾围绕三个思辨议题进行了讨论。
针对“在具身智能的Scaling Law框架下,仿真数据与真实数据的协同边界在哪里?当仿真数据的规模化训练已显著提升模型性能时,真实数据的“不可替代性”是否依然成立?”的问题,各位嘉宾表达了以下观点:多数观点认为,真实数据在复杂人类行为、动态场景及高可靠性需求(如工业实验)中不可替代,仿真数据仅能作为补充,尤其在环境交互设计等场景中适量虚拟数据可辅助优化,但无法独立超越真实数据,且不同任务下Scaling Law规律差异显著。部分观点强调需分场景讨论虚实配比,例如工业仿真虽成熟却难替代物理实验,而具身智能中仿真受限于底层开发门槛、动态建模不足及结果偏差,难以匹配现实需求。关于数据迁移,一方认为强化学习迁移手段可缓解硬件迭代导致的数据失效,另一方指出需硬件超前设计支撑;端到端数据采集短期内作用有限。新型数据源(如智能眼镜)面临流式视频处理难、物理信息缺失及场景泛化挑战,仅适用于固定场景。核心结论是:真实数据仍是核心,仿真为辅助,需结合任务动态性、交互复杂度及成本约束,分场景构建虚实协同的数据体系,推动规模化演进。
“具身智能的决策系统面临“常识性约束”与“动态适应性”的双重挑战—基于规则的传统方法更易嵌入人类常识,而强化学习更适应复杂环境。未来应如何融合两类方法的优势?”,讨论形成核心共识与分歧:多数观点支持分层混合框架——高层决策嵌入规则化常识(如大语言模型编码抽象知识),低层动作采用强化学习适应动态环境,形成"规则保安全、学习促适应"的互补机制;关键分歧在于低层常识实现方式,一方主张通过强化学习泛化训练基础动作(如开门),但面临资源消耗大及高风险场景(如自动驾驶)适用性受限问题,另一方则认为需结合任务分解与多模态学习(语言指导+动作模仿),但分解粒度与底层泛化仍存挑战;创新方向包括动态权重机制(按任务复杂度切换规则/学习主导权)、"大小脑"模式(语言模态学常识+动作模态练条件反射)及模仿学习与强化学习(IL+RL)组合降低纯强化学习成本。共识是以常识规则确保安全边界,以学习提升环境交互弹性。
关于“具身智能的规模化落地需算法、硬件、场景深度耦合。在服务业、制造业等差异化场景中,是应优先追求算法的通用性,还是先为特定场景定制软、硬件架构?”,讨论行程以下观点:产业界与学术界立场分化——产业端明确要求优先为制造业、服务业等特定场景定制软硬件架构以解决劳动力短缺痛点,学术界则倾向探索通用算法愿景;核心共识强调必须通过跨领域协作(AI、硬件、自动控制、产业方联动),基于复杂度、成本、效果三维度动态权衡,否定不计成本追求通用化;关键矛盾在于通用化边界,部分主张在军用、手术等成熟场景内发展有限通用能力;AGI落地预期普遍悲观(3-5年不可行,硬件成本与损耗仍是瓶颈),呼吁人类主动推动技术突破而非被动等待。最终策略定为以场景需求为核心,采用"有限通用+深度定制"双轨推进。
此次论坛历时四个小时,YOCSEF上海分论坛24-25主席邱锡鹏对此次论坛进行了总结。最后,论坛在一片热烈的讨论氛围中圆满结束。
点击“阅读原文”,加入CCF。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...