TimeScope:视频大模型能处理多长视频?

1 天前·来源:Hugging Face Blog
TimeScope视频大模型多模态AI基准测试视觉语言模型

TimeScope 是一个开源基准测试,用于评估视觉语言模型对长视频的理解能力。它通过将短片段插入 1 分钟到 8 小时的视频中,测试模型的检索、合成和时序感知技能。该基准揭示了当前先进模型在真实时序理解方面仍面临挑战。

TimeScope 是一个开源基准测试,旨在衡量视觉语言模型对长视频的理解能力。它通过将短片段插入 1 分钟到 8 小时的视频中,评估三种技能:局部检索、信息合成和细粒度时序感知。TimeScope 显示,许多先进模型在真实时序理解方面仍存在困难。

多模态 AI 的最新进展催生了声称能理解小时级视频的模型,这类似于长上下文语言模型的进步。然而,这些声称需要仔细审视:模型是否真正理解事件序列,还是仅限于表面检索?文本基准如 HELM 和 RULER 已暴露长上下文声称的脆弱性,显示模型在需要推理或聚合的任务中表现不佳。在视频领域,常见测试如 Video Needle in a Haystack 使用静态图像作为“针”,主要测量视觉搜索而非真实时序动态,导致模型在超过约 256 帧时性能下降。

TimeScope 旨在填补这一测量空白,通过插入多个短视频片段作为“针”到基础视频中,评估检索、合成、定位和运动分析,提供更全面的时序理解视图。基准设计强调长视频理解的三个支柱:局部检索测试模型能否在长视频中定位并回答特定片段的问题;信息合成评估模型能否从时间线多个点收集和排序细节;细粒度时序感知分析模型能否处理需要密集多帧采样的运动和事件。

背景阅读

视觉语言模型是 AI 领域的重要分支,结合计算机视觉和自然语言处理技术,旨在理解和生成与视觉内容相关的文本。近年来,随着多模态 AI 的发展,模型如 GPT-4V 和 Gemini 声称能处理长视频,这反映了长上下文语言模型的趋势,例如在文本处理中,模型如 Claude 3 能处理数十万 token 的上下文。然而,视频理解面临独特挑战,包括时序动态、运动分析和事件序列推理。传统基准如 Video-MME 和 Video Needle in a Haystack 主要关注视觉检索,但缺乏对真实时序理解的深入评估。TimeScope 的推出旨在解决这一问题,通过更全面的任务设计,推动视频大模型在长视频处理能力上的进步,为应用如视频摘要、异常检测和机器人自主决策提供更可靠的评估工具。

评论 (0)

登录后参与评论

加载评论中...