一项新研究揭示了当前AI系统的基本弱点:即使是最强大的多模态语言模型也无法处理幼儿在学会说话前就能掌握的视觉任务。多模态AI模型在MMMU等专业知识测试中得分超过90%,但UniPat AI的新研究显示,这些系统在人类学会说话前就能掌握的视觉任务上表现不佳。测试中表现最好的模型Gemini-3-Pro-Preview仅得49.7%,而人类成年人得分94.1%。
来自UniPat AI、北京大学、阿里巴巴集团和MoonShot AI等中国机构的研究人员构建了BabyVision基准测试,包含388个任务,涵盖四个类别。这些任务测试人类在生命最初几个月发展的技能,包括细粒度视觉辨别、迷宫或交叉点线条追踪、空间感知以及涉及旋转和反射的视觉模式识别。
与80名不同年龄段儿童的比较测试显示,差距显著。测试的大多数前沿模型得分低于三岁幼儿的平均水平。仅Gemini-3-Pro-Preview持续超越这一组,但仍落后于典型六岁儿童约20个百分点。研究人员将核心问题归因于“语言化瓶颈”,即当前模型首先将视觉输入转换为语言,导致几何信息在过程中丢失。