BabyVision测试显示多模态AI模型在视觉推理上落后于三岁儿童

2026/1/13·来源：机器之心

多模态AI视觉推理AI测试

BabyVision测试评估了多模态AI模型与三岁儿童的视觉推理能力对比。结果显示，模型在识别物体和空间关系方面表现不佳。这一发现突显了当前AI在基础视觉理解上的局限性。

BabyVision测试是一项针对多模态AI模型视觉推理能力的评估，旨在比较模型与三岁儿童的认知表现。测试结果显示，模型在识别日常物体和空间关系等任务中，准确率显著低于儿童。研究人员指出，这暴露了AI在基础视觉理解方面的不足，可能影响其在更复杂应用中的可靠性。

阅读原文

背景阅读

多模态AI模型结合了视觉和语言处理能力，旨在理解和生成跨模态内容，广泛应用于图像识别、自动驾驶和机器人技术等领域。近年来，随着深度学习的发展，模型在复杂任务上取得进展，但在基础认知任务上仍面临挑战。BabyVision测试借鉴了儿童发展心理学，通过简单视觉推理任务评估AI的认知能力。此前研究显示，AI在特定数据集上表现优异，但在泛化和常识推理方面存在差距。这一测试结果强调了AI需要更接近人类认知机制，以提升在现实世界中的适应性和鲁棒性。

BabyVision测试显示多模态AI模型在视觉推理上落后于三岁儿童

背景阅读

相关阅读

科学家将大语言模型视为外星生物进行研究

阿里与武大提出Agentic Memory框架，统一LLM智能体长短时记忆管理

KAN一作刘子鸣回国任教，清华官网认证

评论 (0)