导读
快手可灵&香港大学联合提出 Context-as-Memory,一种能够实现静态场景记忆的交互式长视频生成模型。通过对历史上下文学习,即可使视频生成模型具备3D一致性的理解与生成能力。
近年来,视频生成模型取得了显著进展,因其能够基于大规模真实世界数据训练出高度逼真的生成效果,被广泛认为有望成为模拟真实物理世界的“世界模型”。然而,要实现这一愿景,模型必须能够在长时间生成过程中保持对场景的持续记忆能力,而当前方法在这方面仍存在明显不足。
近日,香港大学和快手可灵团队联合发表论文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》,提出一种创新性方法:将历史生成的上下文作为“记忆”(即Context-as-Memory),通过context learning 技术学习上下文条件,从而实现对长视频前后场景一致性的有效控制。研究发现:视频生成模型能够隐式学习视频数据中的 3D 先验,无需显式 3D 建模辅助,这一理念与 Genie 3 不谋而合。如下是一个结果展示:
为了高效利用理论上可无限延长的历史帧序列,论文还提出了基于相机轨迹视场(FOV)的记忆检索机制(Memory Retrieval),从全部历史帧中筛选出与当前生成视频高度相关的帧作为记忆条件,大幅提升视频生成的计算效率并降低训练成本。在数据构建上,研究团队基于 Unreal Engine 5 收集了多样化场景、带有精确相机轨迹标注的长视频,用于充分训练和测试上述技术。用户只需提供一张初始图像,即可沿设定的相机轨迹自由探索生成的虚拟世界。
【📖论文题目】:
Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval
【📊项目主页】:
https://context-as-memory.github.io/
【🏆论文地址】:
https://arxiv.org/pdf/2506.03141
一、能力展示
二、技术创新
然而,“将所有历史上下文作为记忆”这一思路虽然直观,却存在三个主要问题:
一、计算资源消耗极大;
二、全部历史上下文中包含大量冗余,仅少数帧与当前生成真正相关;
三、无关帧的引入可能增加噪声,反而干扰生成质量。
为此,一种更合理的方式是从历史上下文中动态检索少量相关帧,作为条件引导当前帧的生成,我们将其称为“记忆检索”。针对上述问题,本研究提出“Context as Memory“方法,旨在实现无需显式三维建模的场景一致的长视频生成。该方法的核心创新包括:
提出了 Context as Memory 方法,强调将历史生成的上下文作为记忆,无需显式3D建模即可实现场景一致的长视频生成。
设计了Memory Retrieval方法,采用基于视场(FOV)重叠的相机轨迹规则进行动态检索,显著减少了需要学习的上下文数量,从而提高了模型训练与推理效率。
实验结果表明,Context as Memory在长视频生成中的场景记忆力表现优越,显著超越了现有的SOTA方法,并且能够在未见过的开放域场景中保持记忆。
三、算法解读
如上图(a)所示,Context-as-Memory的长视频生成是通过基于Context learning的视频自回归生成来实现的,其中,所有历史生成的视频帧作为context,它们被视为记忆力的载体。
进一步地,如上图(b)所示,为了避免将所有历史帧纳入计算所带来的过高计算开销,提出了Memory Retrieval模块。该模块通过根据相机轨迹的视场(FOV)来判断预测帧与历史帧之间的重叠关系,从而动态筛选出与预测视频最相关的历史帧作为记忆条件。此方法显著减少了需要学习的上下文数量,大幅提高了模型训练和推理的效率。
四、实验结果
在实验中,研究者将 Context-as-Memory 与最先进的方法进行了比较,结果表明,Context-as-Memory 在长视频生成的场景记忆力方面,相较于这些方法,表现出了显著的性能提升。
研究团队近期在世界模型与交互式视频生成领域已经积累了多篇研究成果。其中包括整理了交互式视频生成领域工作的综述论文和观点论文,系统性地总结了该领域的发展现状,还提出了世界模型的五大基础能力模块:Generation,Control,Memory,Dynamics以及Intelligence。这一框架为后续基础世界模型的研究指明了方向,具有很高的学习与参考价值。在该框架指导下,团队不仅提出了专注于 Memory 能力的 Context-as-Memory 工作,还在 ICCV 2025 上发表了 GameFactory 论文。GameFactory 聚焦于世界模型的可泛化开放域控制能力,能够生成无限可交互的新游戏,并被选为 Highlight 论文。
相关论文信息:
[1] A Survey of Interactive Generative Video. https://arxiv.org/pdf/2504.21853
[2] Position: Interactive Generative Video as Next-Generation Game Engine. https://arxiv.org/pdf/2503.17359
[3] GameFactory: Creating New Games with Generative Interactive Videos. ICCV 2025 Highlight. https://arxiv.org/pdf/2501.08325
[4] Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval. https://arxiv.org/pdf/2506.03141
更多技术细节请参阅【阅读原文】。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...