那些为了“理解”世界而训练好的 VLM,是否体内沉睡着“创造”世界的能力?
答案是肯定的。
快手可图团队与华中科技大学联合提出全新技术 VGT(Visual Generation Tuning),用一个颠覆性思路改写多模态生成规则:无需从头训练庞大的生成模型,只要给现成的 VLM(视觉语言模型,如 Qwen2.5-VL、InternVL3)做 “专项微调”,就能激活其沉睡的 “生图天赋”,让 “理解世界” 的 AI 直接进化为 “创造世界” 的顶尖生图模型!
[🎯论文标题] :Visual Generation Tuning
[🔮项目主页] :https://github.com/hustvl/VGT
[📝ArXiv链接] :https://arxiv.org/abs/2511.23469
目前VGT代码已开源,并提供了基于 Qwen2.5-VL 和 InternVL3 的预训练及 SFT 权重供未来研究。欢迎 Star ⭐ GitHub 仓库,一起探索 VLM 的生成潜力!
一、AI的“理解”能力将直接有潜力“创造”
1.1 VGT 的颠覆性
要理解 VGT 的颠覆性,我们得先看清当前自回归生成模型是怎么做的:
目前的自回归(Autoregressive, AR)图像生成模型通常依赖Diffusion系列中的VAE,其作为视觉表征与自回归的语言模型(LLM))Gap非常大。通俗来讲就是语言模型不认识VAE,这就导致 AR 模型需要海量数据和计算资源去“硬啃”这些新视觉,训练不仅慢,而且难以收敛。
(a)中展示了当前自回归生图模型的粗暴做法,通常他们探索了一系列正则化方法使得语言模型(LLM)去更容易学习,但是事实上没有解决本质问题:VAE的空间与语言模型LLM存在天然的差距。于是我们提出了VGT(b),直接利用VLM原生的图像表征去生成,仅微调好后展现了强大的生成能力,比之前用VAE的效率和上限都提高了(c)
1.2 VGT 的关键突破
要明白VGT做了什么,我们要先回到现在视觉语言模型(VLM):可以看成是“理解派”,这类模型经过海量数据预训练,早已具备 “看懂图 + 听懂话” 的能力,比如精准回答 “图里的猫在左边还是右边”,但它只会 “解读” 世界,不会 “创造” 世界;
经过VGT微调,VLM便能具有强大的生图能力,这直接证明了:“理解”模型VLM内部存在着非常好的创造潜力。
而 LLaVA当年用 “视觉指令微调”,打破了语言模型(LLM)“看不懂图” 的壁垒。如今 VGT 致敬这一思路,用 “视觉生成微调”(VGT) 让 VLM 学会了 “画图”—— 这不仅是技术传承,更实现了关键突破:已经拥有强大理解能力的VLM,仅需少量微调,即可涌现强大的生图能力。
二、VGT 技术拆解
既然核心痛点,VGT 又是如何打破这层壁垒的?答案藏在它对 “表征(Representation)” 与 “生成(Generation)” 关系的重新定义里不同于盲目堆砌算力,VGT 通过精细的语义对齐(Semantic Alignment)和流形正则化(Manifold Regularization),在连续潜在空间中实现了高效的自回归建模。
2.1 动机:打破“语义-像素”的二元对立
我们先通过聚类分析,找到了当前视觉生成的“根本性矛盾”:
像素级编码器(如 DC-AE): 眼里只有纹理(Texture),比如会把相似的皮毛、布料纹理聚在一起,但在高层语义上是混乱的,导致 AR 模型难以捕捉全局结构,就像拿着一堆打乱的拼图碎片,根本拼不出全局结构。
语义级编码器(如 InternViT):眼里只有类别(Category),比如能精准区分猫、狗、汽车,但直接用它生图会丢光细节 —— 画出来的猫只剩轮廓,没有毛发纹理,更谈不上真实感。
其实自回归模型的收敛速度与生成质量,本质上取决于 Latent Space 的语义结构。VGT的目标是构建一个既具备 VLM 判别性语义,又兼容像素级重构的混合表征空间——让生图模型既能 “听懂指令”,又能 “画好细节”。
(图注:不同视觉编码器的特征聚类可视化。VGT-AE(中间)成功实现了语义结构与纹理细节的统一,这种结构化的 Latent 分布是高效 AR 建模的关键。)
2.2 VGT-AE:面向生成的语义对齐 Tokenizer
传统的 VAE 只懂像素,不懂语义,翻译出的 “图像密码” 逻辑混乱。为了解决这个问题,VGT 提出了 VGT-AE,它复用了 VLM 的视觉编码器(Vision Encoder),通过两阶段训练策略(自蒸馏 + 噪声正则化),将高维语义特征压缩为紧凑的结构化 Latent。
训练方法:
Stage 1:语义自蒸馏 (Semantic Self-Distillation)
怕微调时 VLM 忘了 “怎么理解语义”,我们设计了复合损失函数:除了常规的重构损失(MSE+LPIPS+GAN),引入了关键的自蒸馏项:
这迫使 Encoder 在学习像素重构的同时,必须保持与原始 VLM Teacher 的语义一致性。简单说,就是逼着编码器在学 “还原像素” 的同时,必须牢牢记住 VLM 原本的语义知识 —— 不能练着练着就 “听不懂话” 了。
Stage 2:流形正则化 (Manifold Regularization)
之前的研究表明,无约束的 Latent 分布会导致 Flow Matching 训练不稳定。为此,我们冻结 Encoder,仅优化 Decoder 和投影层,引入通道归一化与噪声注入:
这一步将 Latent 强行拉回标准高斯先验附近,极大地平滑了后续生成任务的优化景观。这就像给特征分布 “定规矩”,让后续生图时的优化过程更平稳,不容易画崩。
结果:哪怕把图像压缩 28 倍,VGT-AE依然能实现了26.67 PSNR和0.50 rFID的重建质量,远超专门设计的 VAE(比如 DC-AE)。
解决了 “特征表征” 的问题,又遇到了自回归生成的老毛病:“一笔一笔按顺序画”,不仅慢,还容易搞混空间关系。
VGT 摒弃了传统的离散 Token 预测(分类任务),转而在连续空间中进行回归预测。过去多个研究(MAR, Fuild)发现自回归生成时随机序列建模优于光栅顺序,因此我们提出了QueryAR,一种解耦了“位置”与“内容”的生成机制, 能够不改变下一个 token 生成范式的情况下,实现随机序列建模和并行生成。
因果建模: 输入序列由位置查询(Position Query, )与图像 Latent () 交错构成:。模型学习的是条件概率分布。该设计使得模型能够显式地感知“我在画哪里”,从而更好地捕捉全局空间关系。
续流匹配: 区别于 VQ-VAE 的离散分类,使用轻量级的 Flow Matching Head 直接预测连续向量场:。这种连续建模彻底消除了量化误差,是 VGT 能够生成高质量细节的关键。
并行推理 (Parallel Inference): 得益于 QueryAR 的设计,VGT 支持部分并行解码。在推理时,模型可以一次性接收多个位置查询,并并行预测对应的 Latent: 。实验证明,在 16× 加速下,VGT 仍保持极高的生成一致性,打破了自回归模型“生成慢”的固有印象,且生成质量损失极少。
三、实验结果
巧思能否落地?数据是最好的证明。
VGT 的 “数据效率” 堪称惊艳——相比于其他动辄使用 20亿(2B)甚至更多数据训练的Diffusion和自回归生成模型,VGT 仅使用了不到 2500万(<25M)的数据,就在多项基准测试中取得了 SOTA 成绩。
在 Text-to-Image Generation 任务上:
GenEval 评分:0.83—— 不仅超越了 SDXL (0.55)、DALLE3 (0.67),甚至击败了 SD3-Medium (0.74)。
DPG-Bench 评分:81.28—— 在自回归模型赛道中遥遥领先,超越了 LlamaGen, VAR, Janus-Pro 等强力对手。
四、Deep Dive:VGT 背后的细节探索与架构灵活性
VGT 不仅仅是一个新的范式,更带来了对多模态生成的新思考。我们在研究中发现了两个超出预期的关键现象,或许能为领域发展提供新视角:
4.1 重建越好,生成越强吗?
在传统 VAE 训练中,我们往往追求极致的像素级重建(更高的 PSNR,更低的 rFID)。然而,VGT 的实验揭示了一个有趣的“重建-生成权衡”现象。
这和文献 VAVAE 中 在 Diffusion 模型发现的规律类似:在VGT 的自回归架构中,那些在像素重建上做到极致的模型(如标准的 InternVL3 VGT-AE),其 Latent Space 往往高度纠缠、过于紧凑,导致自回归模型难以进行语义预测。反之,适度放松重建约束(Low Rec 变体),反而能让 Latent Space 呈现出更清晰的语义聚类结构,从而大幅提升 GenEval 生成得分。
结论很明确: 对于生成任务而言,一个语义解耦的 Latent Space 远比一个像素级精确但语义混乱的空间更有价值。
4.2 跨模型“混搭”:VGT-AE 的通用语义魔力
我们曾有个核心疑问:VGT 的自编码器(AE) 和 语言模型 (LLM) 必须来自同一个 VLM 家族吗?
为了验证这一点,我们做了个大胆的“移花接木”实验:将 Qwen2.5-VL 的 AE 与 InternVL3 的 LLM 强行组合。
结果令人惊讶:
同源最佳:毫无疑问,AE 和 LLM 来自同一家族(如全套 Qwen2.5-VL)时效果最好,得益于预训练阶段的深度对齐。
混搭依然 SOTA:即使是“Qwen AE + InternVL LLM”这种完全未对齐的组合,其生成表现依然显著优于传统的 VAE 基线(DC-AE)。
这证明了 VGT-AE 习得的不仅仅是某种模型特有的参数,而是一种通用的、结构化的视觉语义表征。只要 VLM 经过了充分的多模态预训练,VGT 就能激活其潜在的生成能力,甚至跨越架构的藩篱。
五、未来展望
当然,VGT 并非完美无缺。尽管它在 Geneval 和 DPG-Bench 等指令理解类基准上,分数超过了大部分 Diffusion 模型,但实际生图细节效果并未远超那些经大量高质量数据和多阶段技术训练的模型,仍存在少量伪影问题。
探究背后的原因,我们发现:那些生图质量顶尖的 Diffusion 模型(比如 SANA) 在 Geneval 或者 DPG-Bench 的指令遵循能力(尤其是位置关系、主体关联等单项)上,弱于 VGT—— 这正是 VGT 的核心优势:源于 VLM 微调,天生就比 Diffusion 模型更懂语言,能精准捕捉指令中的语义细节。
因此,未来的优化方向很清晰,将继续发挥自回归生图的优势,同时,进一步借鉴 Diffusion 模型的先进训练技术进一步提升生图质量,让 VGT 既 “懂你说的话”,又 “画得更逼真”,真正实现 “理解与生成一体化” 的终极目标。-END-
”
欢迎加入
【我们是谁】
可灵图像模型中心是「可灵图像 O1」大模型背后的核心团队,主要技术方向包括理解生成统一、图像生成、图像编辑等。我们致力于推动视觉生成和多模态交互的边界,构建下一代多模态生成和交互模型。我们长期招聘多模态生成、多模态理解、强化学习等方向的优秀人才(社招、校招、实习),欢迎加入我们!
【投递方式】
投递简历至邮箱:
”
【相关阅读】
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...