TimeScope 是一个开源基准测试,旨在衡量视觉语言模型对长视频的理解能力。它通过将短片段插入 1 分钟到 8 小时的视频中,评估三种技能:局部检索、信息合成和细粒度时序感知。TimeScope 显示,许多先进模型在真实时序理解方面仍存在困难。
多模态 AI 的最新进展催生了声称能理解小时级视频的模型,这类似于长上下文语言模型的进步。然而,这些声称需要仔细审视:模型是否真正理解事件序列,还是仅限于表面检索?文本基准如 HELM 和 RULER 已暴露长上下文声称的脆弱性,显示模型在需要推理或聚合的任务中表现不佳。在视频领域,常见测试如 Video Needle in a Haystack 使用静态图像作为“针”,主要测量视觉搜索而非真实时序动态,导致模型在超过约 256 帧时性能下降。
TimeScope 旨在填补这一测量空白,通过插入多个短视频片段作为“针”到基础视频中,评估检索、合成、定位和运动分析,提供更全面的时序理解视图。基准设计强调长视频理解的三个支柱:局部检索测试模型能否在长视频中定位并回答特定片段的问题;信息合成评估模型能否从时间线多个点收集和排序细节;细粒度时序感知分析模型能否处理需要密集多帧采样的运动和事件。