NeoBeta - AI 科技资讯

ServiceNow AI 发布了 Apriel-H1 系列模型，该系列包含七个检查点，涵盖 25 到 40 个 Mamba 层（共 50 层），展示了完整的效率-质量前沿。旗舰模型 Apriel-H1-15b-Thinker-SFT 在 MATH500 和 MTBench 基准上略有提升（分别从 0.90 到 0.92 和 8.30 到 8.58），而 GSM8k、GPQA 和 AIME24 略有下降（分别从 0.97 到 0.95、0.59 到 0.55 和 0.70 到 0.65）。总训练量为 76.8B 个令牌。

研究团队最初尝试使用预训练数据和 SFT 数据进行蒸馏，但效果不佳，导致推理质量下降。最终发现，成功的关键在于使用教师模型 SFT 数据集中的高质量推理轨迹，如多步数学证明、编码任务和科学分析。这些数据提供了清晰的推理结构，帮助混合模型学习新的路径以实现相同推理结果。

Apriel-H1 论文详细介绍了这一方法，强调了数据选择在蒸馏推理模型中的重要性。研究挑战了直觉，指出蒸馏推理模型不是转移通用的下一个令牌预测，而是保留教师模型的多步推理模式。

背景阅读

模型蒸馏是一种技术，旨在将大型、高性能模型（教师模型）的知识转移到更小、更高效的模型（学生模型）中，以在保持性能的同时减少计算资源需求。传统蒸馏方法通常使用预训练数据或混合数据，但针对推理模型的蒸馏面临独特挑战，因为推理涉及复杂的多步逻辑和依赖关系。近年来，高效注意力机制（如 Mamba 的线性循环状态空间模型）成为研究热点，旨在替代 Transformer 中的全注意力层，以提升推理速度和降低内存使用。然而，将此类高效架构集成到现有推理模型中，需要克服架构差异带来的性能损失问题。 ServiceNow AI 的研究聚焦于如何通过蒸馏将高效架构（Mamba）融入已有推理模型，而不从头训练。这反映了 AI 领域对模型效率优化的持续追求，特别是在资源受限场景下，如边缘计算或实时应用。该研究为蒸馏技术提供了新见解，强调了数据质量在保留特定能力（如推理）中的关键作用。

Apriel-H1：蒸馏高效推理模型的关键在于高质量推理数据

背景阅读

相关阅读

AprielGuard：现代LLM系统的安全与对抗鲁棒性护栏模型

Falcon-H1-Arabic发布：混合架构推动阿拉伯语AI边界

英特尔发布轻量级数学推理代理DeepMath

评论 (0)