OpenAI 的 o3 首次将图像直接注入推理过程,打破了传统文字思维链的边界,成为多模态推理新的里程碑。但是如何赋予模型这一能力,目前不得而知。因此,小红书联合西安交通大学,采用端到端强化学习,在完全不依赖监督微调(SFT)的前提下,激发了大模型“以图深思”的潜能,构建出多模态深度思考模型 DeepEyes,首次实现了与 o3 类似的用图像进行思考的能力,并已同步开源相关技术细节,让“用图像思考”不再是 OpenAI 专属。
论文标题:
DeepEyes: Incentivizing “Thinking with lmages” via Reinforcement Learning
论文地址:
https://arxiv.org/abs/2505.14362
项目主页:
https://visual-agent.github.io/
代码仓库:
https://github.com/Visual-Agent/DeepEyes
近期,受到R1的启发,出现不少多模态模型采用以文本为核心的思考方式,即“先看后想”—— 模型先观察图像,再通过纯文本推理来解决复杂的多模态问题。然而,这种方法存在显著局限:一旦进入推理阶段,模型无法“回看图像”来补充或验证细节信息,容易导致理解偏差或信息缺失。
相比较之下,更为有效的多模思考方式应是“边看边想”——模型在推理过程中能够动态地调用图像信息,结合视觉与语言的交替交互,从而增强对细节的感知与理解。这种把图像融入思考过程不仅提升了模型应对复杂任务的灵活性,也显著增强了其多模态理解与推理能力。
我们先简单感受一下 DeepEyes 是如何结合图像进行推理的!
我们使用与 OpenAI o3 官方评测中相同的图像进行测试。测试用户提出问题「What is written on the sign?」(牌子上写了什么?),DeepEyes 展现出强大的“用图像思考”的能力,整个过程可分为三步:
第一步:全局视觉分析
模型快速扫描图像,利用自身的视觉感知能力精准锁定画面中的矩形牌子区域,并识别其为文字信息载体。
第二步:智能工具调用
鉴于原图中文字区域分辨率较低,模型自主决策调用图像缩放工具,生成边界框并裁剪放大目标区域,使内容清晰可辨。
第三步:细节推理识别
在清晰图像的基础上,模型结合视觉和文本推理能力,准确识别并输出牌子上的文字:「Ochsner URGENT CARE。」
整个流程无需依赖任何外部OCR工具,纯粹通过模型内部的定位、变换和推理完成识别任务,充分展示了 DeepEyes 原生的“看图思考”能力。
视觉语言模型(VLMs)通过采用长思维链(CoT)方法 ,实现了多模态的深度推理,从而能够处理复杂任务。然而,这些模型仍主要依赖文本推理,其思维过程在很大程度上局限于语言模态。相比之下,人类推理自然地将视觉与认知相结合,通过顺序性的提取信息来进行图像化思考,这支持了更准确的感知决策,对人类早期进化中的生存至关重要。尽管最近一些研究提出了基于预定义工作流程的策略,将视觉信息纳入思维链推理,但模块化设计存在性能次优的问题。
OpenAI 的 o3 模型成功将视觉信息作为推理过程中的动态元素进行整合进思维链中。o3 将推理能力扩展至类似人类的“用图像思考“,突破了语言模态的限制。此外,它在思维链(CoT)过程中以自然交织的方式结合了文本思维链与图像操作工具,为测试阶段的计算扩展开辟了新维度,标志着向真正多模态推理迈出的重要一步。然而,其内部机制目前仍未向开源社区公开。
在本文中,我们介绍了 DeepEyes,一种具备”用图像思考“能力的多模态大语言模型,该能力通过端到端强化学习自然涌现,无需依赖独立的专用模型。DeepEyes 直接由结果奖励信号引导,从而避免了传统方法所需的冷启动监督微调过程。具体而言,我们将模型的视觉定位能力封装在图像缩放工具中,使其能够在代理框架下主动从原始图像中收集信息。这种方式实现了视觉与文本推理深度整合的交织多模态思维链(iMCoT),为多模态推理提供了新的解决方案。
我们的贡献总结如下:
通过端到端强化学习,我们激励并增强模型 ”用图像思考“的能力,形成了交织的多模态思维链(iMCoT)。该方法将视觉与文本推理无缝融合,无需冷启动监督微调(SFT),也不依赖外部独立专用模型作为工具。
为更有效地促进模型的推理行为,我们结合了两种策略:面向工具使用的数据选择机制,以及工具使用奖励策略。实验结果表明,这两个策略均对iMCoT的发展产生了显著推动作用。
我们揭示了iMCoT在强化学习训练过程中的演变动态:工具调用行为从初始的探索阶段逐步发展至高效精准的工具利用阶段。此外,我们还观察到了多种推理模式的出现,包括视觉搜索、比较和验证等。
3.1 模型细节
DeepEyes的架构与传统多模态推理模型一致,但在推理流程上引入了“自驱动视觉聚焦”机制。推理起始阶段,模型首先基于文本内容构建初步思维链。例如,在判断“手机与背包的位置关系”这一问题时,模型会生成内部推理如:“需要确定手机与背包的位置,可能需在图像中定位相关物体”。随后,模型根据推理进展判断是否需要图像辅助信息。若问题涉及小物体、模糊区域或细节不清晰的区域,模型将自主生成边界框坐标,裁剪图像中可能包含关键信息的区域(如手机和背包位置),并聚焦这些区域进行深入分析。裁剪图像随后以自回归方式重新输入模型,作为新的视觉证据,与现有文本推理共同作用,驱动后续推理过程更加准确、具备视觉上下文感知能力。
与以往基于工作流程或纯文本推理的研究相比,我们的 iMCoT 具有以下显著优势:
训练简洁性。iMCoT 仅需问答对即可训练,大幅降低了数据收集的复杂性。相比之下,以往基于工作流程的方法依赖大量难以获取的监督微调(SFT)数据。
更强的泛化能力。iMCoT 通过强化学习动态学习跨任务的最优推理流程,展现出卓越的泛化能力。而基于工作流程的模型则受限于任务特定的人工设计约束,难以适应新任务。
统一端到端优化。通过端到端训练,iMCoT 实现了各个组件的联合优化,确保了全局性能最优。这优于传统方法中各组件单独优化导致的次优性能。
深度多模态融合。iMCoT 自然地交织视觉与文本信息,实现了视觉元素与文本推理的无缝结合,从而支持更精准的感知决策过程。
原生工具调用能力。"用图像思考"作为模型的原生能力,使工具利用的效率和准确性可以直接优化,这是传统推理范式无法实现的突破。
3.2 端到端强化学习
在多模态环境中,稀疏且以结果为导向的奖励信号对于引导视觉语言模型进行有效推理和决策至关重要。由于中间视觉动作缺乏步骤级监督,我们设计了一种基于最终结果质量和条件性工具使用的奖励公式来评估推理轨迹。
我们的奖励由三个核心组件构成:准确性奖励、格式奖励 和 条件性工具使用奖励 。准确性奖励评估最终答案的正确性,格式奖励对结构混乱的输出实施惩罚,而工具使用奖励则仅在两个条件同时满足时触发:模型生成正确答案,且在推理过程中至少调用一次工具。
形式上,给定推理轨迹 τ,总奖励定义为:
其中 为指示函数,仅当 时取值为 1。
我们发现,直接对模型的工具使用行为进行奖励是促进感知驱动推理的关键,且将工具奖励与正确结果绑定的设计至关重要。这种条件性奖励机制鼓励模型在工具能实质性助力任务完成时进行有意义的调用,而非将其作为随意或冗余的操作。
3.3 训练数据
我们的数据收集遵循三个基本原则:(1) 多样化的任务和图像分布。我们纳入各种数据,以增强我们的 iMCoT 的泛化能力。(2) 工具有效性。我们选择那些使用工具能显著提高准确性的场景。(3) 推理能力提升。我们精心挑选能有效提高模型推理能力的数据。因此,我们的训练数据集由三个互补的部分组成:细粒度数据、图表数据和推理数据。细粒度数据选自 V∗ 训练集的一部分,专注于高分辨率图像和详细的感知问题,以最大限度地发挥工具的有效性。来自 ArxivQA 的图表数据包含合成图表和图形图像,丰富了视觉元素的多样性。对于推理数据,我们整合了 ThinkLite-VL 数据集,以拓宽任务多样性并强化模型的推理能力。
我们提出了一种以工具使用为导向的数据选择策略,包含四个关键步骤:(1) 难度管理:我们利用 Qwen2.5-VL-7B 为每个问题生成 8 个回答,并根据准确率估计难度。准确率为 0 或 1 的样本将被排除,因为它们要么太难,要么太基础。(2) 问题格式构建:我们将原始问题重组为开放式格式,并排除无法可靠转换的问题。(3) 可验证性验证:我们剔除无法正确验证的数据,例如答案错误或错误的问题。(4) 工具整合促进:我们实施额外的过滤步骤,优先选择通过调用工具能获得更高信息增益的样本。我们特别选择那些模型在单轮交互中回答错误,但利用真实裁剪区域后能得出正确结果的实例,突显视觉工具使用最有益的场景。具体来说,图表数据无需经过工具整合过滤过程,而推理数据保持其原始形式,因为它已经过严格处理。通过这种全面的选择策略,我们精心策划了一个高质量数据集,专门针对开发和增强工具感知视觉推理能力进行了优化。
4.1 模型性能
我们在高分辨率数据集上和之前的工作进行比较,我们的 DeepEyes 在视觉搜索任务中展现出领先优势。在 V* Bench 上取得了 90.1 的准确率,在 HR-Bench 上也大幅超越现有的基于工作流的方法,在 4K 和 8K 测试集上分别获得了 75.1 和 72.6 的性能。另外,DeepEyes-7B 模型在视觉搜索任务中显出高于Qwen-VL 32B模型,这也进一步说明了构建用图像思考能力的必要性。 此外,DeepEyes 在视觉定位、幻觉以及数学推理任务上也优于之前的模型,证明了我们的 iMCoT 的有效性。
4.2 训练动态
为了更深入地了解模型在端到端强化学习过程中模型与工具的交互的行为变化,我们对其演化路径进行了详细分析。我们发现模型的工具经历了三个明显的阶段演变,每个阶段都反映了工具与推理能力的不同整合水平。
阶段 1:初始工具探索期(步骤 0 - 20)在学习初期,模型仅根据系统提示被动调用工具,缺乏明确的使用策略。这一阶段特征鲜明:工具调用频率与响应长度均显著增加,表明模型处于纯粹的探索行为模式。尽管工具使用频繁,但较低的定位准确了反映出模型尚未能有效将检索信息与视觉上下文关联起来。模型主要通过试错方式,在没有外部引导的情况下探索工具功能。值得注意的是,在步骤8至20期间,随着模型掌握基本工具技能,响应长度开始大幅减少,冗长的图像描述和工具意图陈述也逐渐精简。
阶段 2:高频工具使用期(步骤 20 - 45)进入第二阶段,模型开始积极频繁地调用工具,试图通过最大化工具使用来提升答案正确性和获取奖励。这种"广泛搜索"策略在所有关键性能指标上带来显著提升,包括定位和回答的准确率。较长的响应文本和高频的工具调用表明,模型选择将视觉推理过程外部化,而非依赖内部推理能力。这一阶段反映了模型已开始认识到工具的价值,但尚未形成高效的使用模式,处于工具认知的过渡期。
阶段 3:高效工具整合期(步骤 45 - 80)在最终阶段,模型转向更具选择性和精确性的工具使用方式。它能够在维持高定位精度和任务准确率的同时,显著降低工具调用频率和响应长度。这表明模型已内化了一种更为精炼的视觉语言策略——工具不再作为"辅助拐杖",而是成为一种战略性资源,仅在必要时才被调用。较高的定位IoU与较少的工具调用共同反映出模型已发展出隐含的规划机制:首先在内部缩小可能的视觉关注范围,然后选择性地利用工具来验证或优化其判断。
这一从广泛探索到精准利用的演变过程,展示了模型通过端到端训练逐步学习优化工具使用以获取最大奖励的能力。工具使用已成功融入模型的核心推理流程,与其整体策略协同进化。这些发现凸显了工具增强型视觉语言模型在构建可扩展、可解释的多模态推理系统方面的巨大潜力。
我们提出了 DeepEyes,一种创新的视觉语言模型,能够通过端到端强化学习将视觉输入与文本推理无缝整合,形成内在的多模态思维 (iMCoT)。与现有方法的根本区别在于,DeepEyes既无需依赖合成的推理轨迹,也不需要调用外部专门模型来实现这种复杂的推理行为。为引导模型发展高质量的推理能力,我们设计了专注于工具使用的精确数据选择机制和奖励策略体系,有效促进了模型在工具辅助环境中的问题解决能力。通过训练过程的追踪分析,我们观察到模型对工具的使用模式经历了显著演变——从初始阶段的随机探索,逐步发展为高度策略化的精准利用。这一进化过程伴随着模型整体准确性的提升和视觉注意力焦点的明显改善。DeepEyes 成功展现出多种复杂的推理行为模式,包括系统化的视觉搜索和精细的视觉对比分析。尤为值得注意的是,即使仅使用一个7B参数规模的基础模型,DeepEyes 在多个视觉语言理解基准测试中仍然取得了具有竞争力的表现,证明了我们方法的有效性和效率。
Jack Hong
小红书 hi lab 团队算法实习生,主要研究方向是多模态、大语言模型推理、以及计算机视觉。
枫原
小红书hi lab团队算法工程师,主要研究方向是强化学习。
国海
小红书hi lab团队算法工程师,主要研究方向是大语言模型和多模态模型对齐。
部门介绍
小红书 hi lab 团队(人文智能实验室,Humane Intelligence Lab)致力于突破人工智能的边界,通过发展人际智能、空间智能、音乐智能等多元智能形态,不断拓展人机交互的可能性,愿景是"让AI成为人类贴心和有益的伙伴"。
正式员工招聘
以上岗位点击链接即可直达投递入口~
Redstar顶尖实习生招聘
也可以发送简历至:
并抄送至:
添加小助手,了解更多内容
微信号 / REDtech01
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...