顶尖AI模型在幼儿轻松应对的视觉任务上表现不佳

2 天前·来源:The Decoder
AI模型视觉任务多模态AIBabyVision语言化瓶颈

新基准测试BabyVision显示,最先进的多模态AI模型在幼儿轻松完成的视觉任务上表现不佳。在测试中,多数前沿AI模型得分低于三岁幼儿平均水平,仅Gemini-3-Pro-Preview表现稍好。研究人员指出,核心问题是“语言化瓶颈”,即模型将视觉输入转换为语言时丢失几何信息。

一项新研究揭示了当前AI系统的基本弱点:即使是最强大的多模态语言模型也无法处理幼儿在学会说话前就能掌握的视觉任务。多模态AI模型在MMMU等专业知识测试中得分超过90%,但UniPat AI的新研究显示,这些系统在人类学会说话前就能掌握的视觉任务上表现不佳。测试中表现最好的模型Gemini-3-Pro-Preview仅得49.7%,而人类成年人得分94.1%。

来自UniPat AI、北京大学、阿里巴巴集团和MoonShot AI等中国机构的研究人员构建了BabyVision基准测试,包含388个任务,涵盖四个类别。这些任务测试人类在生命最初几个月发展的技能,包括细粒度视觉辨别、迷宫或交叉点线条追踪、空间感知以及涉及旋转和反射的视觉模式识别。

与80名不同年龄段儿童的比较测试显示,差距显著。测试的大多数前沿模型得分低于三岁幼儿的平均水平。仅Gemini-3-Pro-Preview持续超越这一组,但仍落后于典型六岁儿童约20个百分点。研究人员将核心问题归因于“语言化瓶颈”,即当前模型首先将视觉输入转换为语言,导致几何信息在过程中丢失。

背景阅读

多模态AI模型是近年来人工智能领域的重要发展方向,旨在整合文本、图像、音频等多种输入模式,以提升模型的感知和理解能力。例如,OpenAI的GPT系列、Google的Gemini和Anthropic的Claude等模型都支持多模态功能,在语言处理、图像识别和推理任务上取得了显著进展。然而,这些模型通常依赖于将视觉信息转换为语言表示,这可能限制其在需要精确空间或几何推理的任务上的表现。BabyVision基准测试的提出,反映了AI研究界对模型在基础视觉任务上能力的关注,这些任务对人类来说几乎是直觉性的,但对AI系统却构成挑战。这一研究有助于推动AI模型在视觉感知和推理方面的改进,特别是在减少语言依赖、增强直接视觉处理能力方面。

评论 (0)

登录后参与评论

加载评论中...