阿布扎比TII发布Falcon H1R-7B:7B参数推理模型在数学和编码任务中超越更大模型

5 天前·来源:MarkTechPost
TIIFalcon H1R-7B推理模型AI架构强化学习

阿布扎比技术创新研究所发布了Falcon H1R-7B推理模型,该模型仅7B参数,在数学和编码基准测试中超越了许多14B至47B模型。它采用混合Transformer与Mamba2架构,支持256k上下文窗口,并通过两阶段训练优化推理能力。模型在Hugging Face上可用,专为链式思维推理设计。

阿布扎比技术创新研究所发布了Falcon H1R-7B,这是一个7B参数的推理专用模型,在数学、编码和通用基准测试中匹配或超越了许多14B至47B推理模型,同时保持紧凑高效。它基于Falcon H1 7B基础模型构建,可在Hugging Face的Falcon-H1R集合中获取。

Falcon H1R-7B采用混合Transformer与Mamba2架构,结合了Transformer层的注意力推理和Mamba2块的线性时间序列建模,以提升推理效率、速度和准确性。模型在vLLM部署中默认支持262144的最大模型长度,对应256k令牌上下文窗口,允许处理长链思维轨迹和多步骤工具使用日志。

训练过程分为两个阶段:第一阶段在Falcon-H1-7B基础上进行监督微调,使用数学、编码和科学等领域的逐步长形式推理数据;第二阶段采用GRPO强化学习方法,通过符号检查和单元测试奖励正确推理链,优化模型在令牌预算内保持有用中间步骤。

在数学基准测试中,Falcon H1R-7B总得分73.96%,超过Apriel-1.5-15B的69.32%及更大模型;在编码和代理任务中,总得分33.95%,LiveCodeBench v6得分68.6%高于Qwen3-32B;通用推理任务总得分49.48%,MMLU Pro得分72.1%高于其他基准。

背景阅读

Falcon H1R-7B是阿布扎比技术创新研究所开发的推理专用模型,基于Falcon系列模型,该系列以高效和开源著称。模型采用混合Transformer与Mamba2架构,Mamba2是一种状态空间模型,能提供线性时间序列处理能力,适合长上下文场景。训练中结合监督微调和强化学习,GRPO方法通过组相对策略优化提升推理准确性。在AI领域,小型模型如7B参数模型正通过架构创新和训练优化,在特定任务如数学和编码推理上挑战更大模型,这反映了模型效率提升的趋势。相关技术背景包括Transformer架构的广泛应用、Mamba模型在序列建模中的进展,以及强化学习在AI训练中的角色。

评论 (0)

登录后参与评论

加载评论中...