Liquid AI 发布了 LFM2.5,这是一个基于 LFM2 架构的新一代小型基础模型系列,专注于设备和边缘部署。该模型家族包括 LFM2.5-1.2B-Base 和 LFM2.5-1.2B-Instruct,并扩展到日语、视觉语言和音频语言变体。模型已在 Hugging Face 上以开放权重发布,并通过 LEAP 平台提供。
LFM2.5 保持了混合 LFM2 架构,该架构专为在 CPU 和 NPU 上实现快速且内存高效的推理而设计,并扩展了数据和后训练流程。1.2B 参数骨干的预训练从 10T 扩展到 28T 个标记。指令变体随后接受监督微调、偏好对齐和大规模多阶段强化学习,专注于指令遵循、工具使用、数学和知识推理。
LFM2.5-1.2B-Instruct 是主要的通用文本模型。Liquid AI 团队报告了在 GPQA、MMLU Pro、IFEval、IFBench 以及多个函数调用和编码套件上的基准测试结果。该模型在 GPQA 上达到 38.89,在 MMLU Pro 上达到 44.35。竞争性的 1B 级别开放模型如 Llama-3.2-1B Instruct 和 Gemma-3-1B IT 在这些指标上得分显著较低。
在针对多步指令遵循和函数调用质量的 IFEval 和 IFBench 上,LFM2.5-1.2B-Instruct 报告了 86.23 和 47.33。这些值领先于上述 Liquid AI 表格中的其他 1B 级别基线。
LFM2.5-1.2B-JP 是一个日语优化的文本模型,源自同一骨干。它针对 JMMLU、日语 M-IFEval 和日语 GSM8K 等任务。该检查点在日语任务上优于通用指令模型,并在这些本地化基准测试中与 Qwen3-1.7B、Llama 3.2-1B Instruct 和 Gemma 3-1B IT 等其他小型多语言模型竞争或超越。
LFM2.5-VL-1.6B 是该系列中更新的视觉语言模型。它使用 LFM2.5-1.2B-Base 作为语言骨干,并添加了一个视觉塔用于图像理解。该模型在一系列视觉推理和 OCR 基准测试上进行了调优,包括 MMStar、MM IFEval、BLINK、InfoVQA、OCRBench v2、RealWorldQA、MMMU 和多语言 MMBench。LFM2.5-VL-1.6B 在大多数指标上优于之前的 LFM2-VL-1.6B,旨在用于文档理解、用户界面阅读和边缘约束下的多图像推理等现实世界任务。
LFM2.5-Audio-1.5B 是一个原生音频语言模型,支持文本和音频输入输出。它被呈现为音频到音频模型,并使用音频去标记器,在受限硬件上相同精度下比之前基于 Mimi 的去标记器快八倍。
该模型支持两种主要生成模式。交错生成专为实时语音到语音对话智能体设计,其中延迟占主导。顺序生成针对自动语音识别和文本到语音等任务,允许切换生成模态而无需重新初始化模型。音频堆栈通过低精度量化感知训练进行训练,使 STOI 和 UTMOS 等指标接近全精度基线,同时支持在计算有限的设备上部署。