视频世界模型通过基于动作预测未来帧,在动态环境中为智能体规划和推理提供了巨大潜力。然而,当前模型在处理长序列时面临长期记忆的瓶颈,传统注意力层的高计算成本限制了它们对场景的持续理解能力。
斯坦福大学、普林斯顿大学和Adobe研究团队在论文《长上下文状态空间视频世界模型》中提出了创新解决方案。他们引入了一种利用状态空间模型扩展时间记忆而不牺牲计算效率的新型架构。
核心问题在于注意力机制相对于序列长度的二次计算复杂性。随着视频上下文增长,注意力层所需资源急剧增加,使得长期记忆在实际应用中变得不切实际。这意味着经过一定数量的帧后,模型会“忘记”早期事件,影响其在需要长期连贯性或推理的任务上的表现。
研究团队的关键见解是利用状态空间模型在因果序列建模中的固有优势。与以往将SSM改造用于非因果视觉任务的尝试不同,这项工作充分利用了它们在高效处理序列方面的优势。
提出的长上下文状态空间视频世界模型包含几个关键设计选择。块状SSM扫描方案是其设计的核心,通过将长序列分解为可管理的块,模型可以维护跨块传递信息的压缩“状态”,有效扩展了模型的记忆范围。
为了补偿块状SSM扫描可能带来的空间一致性损失,模型结合了密集局部注意力。这确保了块内和跨块的连续帧保持强关系,保留了现实视频生成所需的细粒度细节和一致性。这种全局和局部处理的双重方法使模型能够同时实现长期记忆和局部保真度。
论文还引入了两种关键训练策略以进一步提高长上下文性能。扩散强制技术鼓励模型基于输入前缀生成帧,有效强制其学习在更长时间内保持一致性。帧局部注意力机制通过将帧分组为块,实现了比完全因果掩码显著加速的训练和采样。