NeoBeta - AI 科技资讯

视频世界模型通过基于动作预测未来帧，在动态环境中为智能体规划和推理提供了巨大潜力。然而，当前模型在处理长序列时面临长期记忆的瓶颈，传统注意力层的高计算成本限制了它们对场景的持续理解能力。

斯坦福大学、普林斯顿大学和Adobe研究团队在论文《长上下文状态空间视频世界模型》中提出了创新解决方案。他们引入了一种利用状态空间模型扩展时间记忆而不牺牲计算效率的新型架构。

核心问题在于注意力机制相对于序列长度的二次计算复杂性。随着视频上下文增长，注意力层所需资源急剧增加，使得长期记忆在实际应用中变得不切实际。这意味着经过一定数量的帧后，模型会“忘记”早期事件，影响其在需要长期连贯性或推理的任务上的表现。

研究团队的关键见解是利用状态空间模型在因果序列建模中的固有优势。与以往将SSM改造用于非因果视觉任务的尝试不同，这项工作充分利用了它们在高效处理序列方面的优势。

提出的长上下文状态空间视频世界模型包含几个关键设计选择。块状SSM扫描方案是其设计的核心，通过将长序列分解为可管理的块，模型可以维护跨块传递信息的压缩“状态”，有效扩展了模型的记忆范围。

为了补偿块状SSM扫描可能带来的空间一致性损失，模型结合了密集局部注意力。这确保了块内和跨块的连续帧保持强关系，保留了现实视频生成所需的细粒度细节和一致性。这种全局和局部处理的双重方法使模型能够同时实现长期记忆和局部保真度。

论文还引入了两种关键训练策略以进一步提高长上下文性能。扩散强制技术鼓励模型基于输入前缀生成帧，有效强制其学习在更长时间内保持一致性。帧局部注意力机制通过将帧分组为块，实现了比完全因果掩码显著加速的训练和采样。

背景阅读

视频世界模型是人工智能领域的一个重要研究方向，旨在通过预测未来帧来模拟和理解动态环境。这类模型在机器人控制、自动驾驶、视频生成和游戏AI等应用中具有广泛潜力。近年来，随着视频扩散模型的发展，生成逼真未来序列的能力显著提升，但长期记忆问题一直是技术瓶颈。传统基于注意力的模型在处理长序列时面临计算复杂度爆炸性增长的问题，限制了其在实际场景中的应用。状态空间模型作为一种高效的序列建模工具，在自然语言处理等领域已展现出优势，但在视觉任务中的应用仍处于探索阶段。这项研究将SSM与注意力机制相结合，为解决视频模型的长期记忆问题提供了新思路，代表了视频生成和理解技术的重要进展。

Adobe研究团队利用状态空间模型为视频世界模型解锁长期记忆

背景阅读

相关阅读

TimeScope：视频大模型能处理多长视频？

Google推出Gemini Robotics On-Device，将AI模型本地部署至机器人设备

SmolVLA：基于Lerobot社区数据训练的高效视觉-语言-动作模型

评论 (0)