中国研究人员开发了名为UniCorn的框架,旨在教导多模态AI模型识别并修复自身弱点。当前一些多模态模型能够理解和生成图像,但这两项能力之间常存在明显差距。例如,模型可能正确识别图像中沙滩在左、海浪在右,但自己生成图像时却将布局颠倒。中国科学技术大学等高校的研究人员在研究中将这种现象称为传导性失语症,借鉴了神经学中患者理解语言但无法正确复述的障碍概念。UniCorn正是为弥合这一差距而设计的框架。
UniCorn的核心思路是:如果模型评估图像的能力优于生成能力,那么这种评估能力应当能够改进生成效果。研究人员将单一多模态模型拆分为在同一参数空间内协作的三个角色。提议者首先生成多样且具有挑战性的文本描述。求解者随后为每个提示创建多个图像候选,具体生成八个不同参数的变体。最后,评判者以0到10分对生成的图像进行评分并提供详细推理。
实际训练发生在第二阶段。收集到的交互被转化为四种不同的训练格式:模型学习从提示生成优质图像,同时也学习描述自己的图像。此外,模型还训练评估图文对以及将不良结果转化为更好结果的能力。研究人员强调所有三个组件都是必需的,仅基于生成数据训练会导致模型的理解能力崩溃。据研究人员介绍,在八块Nvidia H800 GPU上进行微调约需七小时,相对于所获改进而言耗时较少。整个过程无需外部数据集或更强的教师模型。
为衡量改进是否反映真正的多模态智能而非仅任务特定优化,研究人员开发了UniCycle基准测试。它测试模型能否从自身生成的图像中重建关键信息。该过程遵循文本到图像再到文本的循环:模型首先从文本描述生成图像,然后回答关于该图像的问题。外部模型随后检查答案是否与原始描述匹配,从而揭示模型是否真正理解所生成的内容。
在实验中,研究人员使用BAGEL作为基础模型,并在六个不同基准上测试UniCorn。结果显示相比基础模型有持续改进。在需要结构化理解的任务上提升尤为显著,模型在物体计数和空间3D排列方面改进明显。UniCorn在需要文化或科学背景知识的知识密集型任务上也显示出明确进展。在测试生成包含多个物体及其属性的复杂场景能力的DPG基准上,UniCorn甚至击败了GPT-4o。在新的UniCycle基准上,该框架得分比基础模型高出近十分,研究团队认为这表明改进并非表面,而是真正加强了理解与生成之间的一致性。