ServiceNow AI 发布了 Apriel-H1 系列模型,该系列包含七个检查点,涵盖 25 到 40 个 Mamba 层(共 50 层),展示了完整的效率-质量前沿。旗舰模型 Apriel-H1-15b-Thinker-SFT 在 MATH500 和 MTBench 基准上略有提升(分别从 0.90 到 0.92 和 8.30 到 8.58),而 GSM8k、GPQA 和 AIME24 略有下降(分别从 0.97 到 0.95、0.59 到 0.55 和 0.70 到 0.65)。总训练量为 76.8B 个令牌。
研究团队最初尝试使用预训练数据和 SFT 数据进行蒸馏,但效果不佳,导致推理质量下降。最终发现,成功的关键在于使用教师模型 SFT 数据集中的高质量推理轨迹,如多步数学证明、编码任务和科学分析。这些数据提供了清晰的推理结构,帮助混合模型学习新的路径以实现相同推理结果。
Apriel-H1 论文详细介绍了这一方法,强调了数据选择在蒸馏推理模型中的重要性。研究挑战了直觉,指出蒸馏推理模型不是转移通用的下一个令牌预测,而是保留教师模型的多步推理模式。