Apriel-H1:蒸馏高效推理模型的关键在于高质量推理数据

2 天前·来源:Hugging Face Blog
模型蒸馏推理模型MambaAI效率ServiceNow AI

ServiceNow AI 将 15B 推理模型转换为 Mamba 混合架构,实现了 2.1 倍吞吐量提升且质量损失最小。研究发现,蒸馏成功的关键在于使用教师模型 SFT 数据集中的高质量推理轨迹,而非预训练数据。该研究挑战了直觉,强调蒸馏推理模型需专注于保留多步推理模式。

ServiceNow AI 发布了 Apriel-H1 系列模型,该系列包含七个检查点,涵盖 25 到 40 个 Mamba 层(共 50 层),展示了完整的效率-质量前沿。旗舰模型 Apriel-H1-15b-Thinker-SFT 在 MATH500 和 MTBench 基准上略有提升(分别从 0.90 到 0.92 和 8.30 到 8.58),而 GSM8k、GPQA 和 AIME24 略有下降(分别从 0.97 到 0.95、0.59 到 0.55 和 0.70 到 0.65)。总训练量为 76.8B 个令牌。

研究团队最初尝试使用预训练数据和 SFT 数据进行蒸馏,但效果不佳,导致推理质量下降。最终发现,成功的关键在于使用教师模型 SFT 数据集中的高质量推理轨迹,如多步数学证明、编码任务和科学分析。这些数据提供了清晰的推理结构,帮助混合模型学习新的路径以实现相同推理结果。

Apriel-H1 论文详细介绍了这一方法,强调了数据选择在蒸馏推理模型中的重要性。研究挑战了直觉,指出蒸馏推理模型不是转移通用的下一个令牌预测,而是保留教师模型的多步推理模式。

背景阅读

模型蒸馏是一种技术,旨在将大型、高性能模型(教师模型)的知识转移到更小、更高效的模型(学生模型)中,以在保持性能的同时减少计算资源需求。传统蒸馏方法通常使用预训练数据或混合数据,但针对推理模型的蒸馏面临独特挑战,因为推理涉及复杂的多步逻辑和依赖关系。 近年来,高效注意力机制(如 Mamba 的线性循环状态空间模型)成为研究热点,旨在替代 Transformer 中的全注意力层,以提升推理速度和降低内存使用。然而,将此类高效架构集成到现有推理模型中,需要克服架构差异带来的性能损失问题。 ServiceNow AI 的研究聚焦于如何通过蒸馏将高效架构(Mamba)融入已有推理模型,而不从头训练。这反映了 AI 领域对模型效率优化的持续追求,特别是在资源受限场景下,如边缘计算或实时应用。该研究为蒸馏技术提供了新见解,强调了数据质量在保留特定能力(如推理)中的关键作用。

评论 (0)

登录后参与评论

加载评论中...