NeoBeta - AI 科技资讯

语言技术实验室在 2025 年 4 月 11 日发布了 Visual Salamandra，这是多模态人工智能领域的一项重大进展。该模型扩展了 Salamandra 大语言模型的能力，使其能够处理图像和视频输入。Visual Salamandra 基于 70 亿参数的基础模型，保持了紧凑性和效率，同时扩展到多模态任务。

Visual Salamandra 的核心设计是视觉-语言对齐，它在 Salamandra Instructed 7B 模型基础上，整合了 Google 的 SigLIP 编码器、一个 2 层 MLP 投影器和先进的后期融合技术，以弥合视觉和文本模态之间的差距。这种架构使模型能够从多样化输入中理解和生成上下文准确的响应，输入范围包括单张图像、多张图像、视频以及纯文本指令。这一发展反映了实验室对支持稳健、多语言和多模态 AI 系统的更广泛承诺，特别是那些优先考虑欧洲语言多样性的系统。

为了将 Salamandra 适配到视觉输入，实验室实施了一个以后期融合架构为中心的四阶段训练过程。在这个设置中，预训练的图像编码器生成图像嵌入，然后通过自定义训练的多层感知机投影器与 LLM 对齐。四个训练阶段包括：投影器预训练、高质量视觉预训练、指令调优和完整多模态调优。数据多样性在整个训练过程中发挥了关键作用，总共使用了 610 万条指令调优实例，包括 842,000 条纯文本样本。训练语料库来自 AI2D、Cambrian 和 LLaVA Next 等来源，旨在增强视觉基础、文档理解、数学推理和 OCR 能力。

与语言技术实验室之前的模型一样，Visual Salamandra 继续致力于多语言包容性，特别关注欧洲语言。这种方法确保资源不足的语言能从指令调优和视觉任务对齐中受益，有助于缩小多模态 AI 研究中的资源差距。Visual Salamandra 是首批将这种语言多样性整合到多模态指令调优框架中的模型之一。

Visual Salamandra 解锁了语言和视觉交叉领域的广泛应用，例如视觉问答和光学字符识别。

背景阅读

多模态人工智能是 AI 领域的一个重要分支，旨在整合和处理不同类型的数据模态，如文本、图像、音频和视频。近年来，随着大语言模型的快速发展，研究者开始探索如何将这些模型扩展到视觉和其他模态，以实现更全面的理解和生成能力。Google 的 SigLIP 编码器是一种用于视觉-语言对齐的先进技术，它通过对比学习来对齐图像和文本表示。Salamandra 是一个专注于多语言处理的大语言模型，由语言技术实验室开发，强调欧洲语言的多样性。多模态模型通常采用融合技术，如早期融合或后期融合，来整合不同模态的信息。Visual Salamandra 的发布代表了在构建高效、多语言多模态 AI 系统方面的进展，特别是在资源不足语言的支持上，这可能推动更公平的 AI 技术发展。

Visual Salamandra 发布，扩展多模态理解能力

背景阅读

相关阅读

Gemini 2.5 Pro 预览版发布，编程性能进一步提升

Google AI 推出 DolphinGemma 模型，助力解码海豚通信

谷歌发布Gemini 2.5 Flash：首款全混合推理模型

评论 (0)