阿布扎比技术创新研究所发布了Falcon H1R-7B,这是一个7B参数的推理专用模型,在数学、编码和通用基准测试中匹配或超越了许多14B至47B推理模型,同时保持紧凑高效。它基于Falcon H1 7B基础模型构建,可在Hugging Face的Falcon-H1R集合中获取。
Falcon H1R-7B采用混合Transformer与Mamba2架构,结合了Transformer层的注意力推理和Mamba2块的线性时间序列建模,以提升推理效率、速度和准确性。模型在vLLM部署中默认支持262144的最大模型长度,对应256k令牌上下文窗口,允许处理长链思维轨迹和多步骤工具使用日志。
训练过程分为两个阶段:第一阶段在Falcon-H1-7B基础上进行监督微调,使用数学、编码和科学等领域的逐步长形式推理数据;第二阶段采用GRPO强化学习方法,通过符号检查和单元测试奖励正确推理链,优化模型在令牌预算内保持有用中间步骤。
在数学基准测试中,Falcon H1R-7B总得分73.96%,超过Apriel-1.5-15B的69.32%及更大模型;在编码和代理任务中,总得分33.95%,LiveCodeBench v6得分68.6%高于Qwen3-32B;通用推理任务总得分49.48%,MMLU Pro得分72.1%高于其他基准。