语言技术实验室在 2025 年 4 月 11 日发布了 Visual Salamandra,这是多模态人工智能领域的一项重大进展。该模型扩展了 Salamandra 大语言模型的能力,使其能够处理图像和视频输入。Visual Salamandra 基于 70 亿参数的基础模型,保持了紧凑性和效率,同时扩展到多模态任务。
Visual Salamandra 的核心设计是视觉-语言对齐,它在 Salamandra Instructed 7B 模型基础上,整合了 Google 的 SigLIP 编码器、一个 2 层 MLP 投影器和先进的后期融合技术,以弥合视觉和文本模态之间的差距。这种架构使模型能够从多样化输入中理解和生成上下文准确的响应,输入范围包括单张图像、多张图像、视频以及纯文本指令。这一发展反映了实验室对支持稳健、多语言和多模态 AI 系统的更广泛承诺,特别是那些优先考虑欧洲语言多样性的系统。
为了将 Salamandra 适配到视觉输入,实验室实施了一个以后期融合架构为中心的四阶段训练过程。在这个设置中,预训练的图像编码器生成图像嵌入,然后通过自定义训练的多层感知机投影器与 LLM 对齐。四个训练阶段包括:投影器预训练、高质量视觉预训练、指令调优和完整多模态调优。数据多样性在整个训练过程中发挥了关键作用,总共使用了 610 万条指令调优实例,包括 842,000 条纯文本样本。训练语料库来自 AI2D、Cambrian 和 LLaVA Next 等来源,旨在增强视觉基础、文档理解、数学推理和 OCR 能力。
与语言技术实验室之前的模型一样,Visual Salamandra 继续致力于多语言包容性,特别关注欧洲语言。这种方法确保资源不足的语言能从指令调优和视觉任务对齐中受益,有助于缩小多模态 AI 研究中的资源差距。Visual Salamandra 是首批将这种语言多样性整合到多模态指令调优框架中的模型之一。
Visual Salamandra 解锁了语言和视觉交叉领域的广泛应用,例如视觉问答和光学字符识别。