Visual Salamandra 发布,扩展多模态理解能力

7 小时前·来源:Hugging Face Blog
多模态AI大语言模型视觉-语言对齐欧洲语言AI模型

语言技术实验室发布了 Visual Salamandra,将 Salamandra 大语言模型扩展至图像和视频处理。该模型基于 70 亿参数基础模型,整合了 Google SigLIP 编码器和先进融合技术。Visual Salamandra 支持从图像、视频到文本的多样化输入,并强调欧洲语言多样性。

语言技术实验室在 2025 年 4 月 11 日发布了 Visual Salamandra,这是多模态人工智能领域的一项重大进展。该模型扩展了 Salamandra 大语言模型的能力,使其能够处理图像和视频输入。Visual Salamandra 基于 70 亿参数的基础模型,保持了紧凑性和效率,同时扩展到多模态任务。

Visual Salamandra 的核心设计是视觉-语言对齐,它在 Salamandra Instructed 7B 模型基础上,整合了 Google 的 SigLIP 编码器、一个 2 层 MLP 投影器和先进的后期融合技术,以弥合视觉和文本模态之间的差距。这种架构使模型能够从多样化输入中理解和生成上下文准确的响应,输入范围包括单张图像、多张图像、视频以及纯文本指令。这一发展反映了实验室对支持稳健、多语言和多模态 AI 系统的更广泛承诺,特别是那些优先考虑欧洲语言多样性的系统。

为了将 Salamandra 适配到视觉输入,实验室实施了一个以后期融合架构为中心的四阶段训练过程。在这个设置中,预训练的图像编码器生成图像嵌入,然后通过自定义训练的多层感知机投影器与 LLM 对齐。四个训练阶段包括:投影器预训练、高质量视觉预训练、指令调优和完整多模态调优。数据多样性在整个训练过程中发挥了关键作用,总共使用了 610 万条指令调优实例,包括 842,000 条纯文本样本。训练语料库来自 AI2D、Cambrian 和 LLaVA Next 等来源,旨在增强视觉基础、文档理解、数学推理和 OCR 能力。

与语言技术实验室之前的模型一样,Visual Salamandra 继续致力于多语言包容性,特别关注欧洲语言。这种方法确保资源不足的语言能从指令调优和视觉任务对齐中受益,有助于缩小多模态 AI 研究中的资源差距。Visual Salamandra 是首批将这种语言多样性整合到多模态指令调优框架中的模型之一。

Visual Salamandra 解锁了语言和视觉交叉领域的广泛应用,例如视觉问答和光学字符识别。

背景阅读

多模态人工智能是 AI 领域的一个重要分支,旨在整合和处理不同类型的数据模态,如文本、图像、音频和视频。近年来,随着大语言模型的快速发展,研究者开始探索如何将这些模型扩展到视觉和其他模态,以实现更全面的理解和生成能力。Google 的 SigLIP 编码器是一种用于视觉-语言对齐的先进技术,它通过对比学习来对齐图像和文本表示。Salamandra 是一个专注于多语言处理的大语言模型,由语言技术实验室开发,强调欧洲语言的多样性。多模态模型通常采用融合技术,如早期融合或后期融合,来整合不同模态的信息。Visual Salamandra 的发布代表了在构建高效、多语言多模态 AI 系统方面的进展,特别是在资源不足语言的支持上,这可能推动更公平的 AI 技术发展。

评论 (0)

登录后参与评论

加载评论中...