NeoBeta - AI 科技资讯

阿布扎比技术创新研究所发布了Falcon H1R-7B，这是一个7B参数的推理专用模型，在数学、编码和通用基准测试中匹配或超越了许多14B至47B推理模型，同时保持紧凑高效。它基于Falcon H1 7B基础模型构建，可在Hugging Face的Falcon-H1R集合中获取。

Falcon H1R-7B采用混合Transformer与Mamba2架构，结合了Transformer层的注意力推理和Mamba2块的线性时间序列建模，以提升推理效率、速度和准确性。模型在vLLM部署中默认支持262144的最大模型长度，对应256k令牌上下文窗口，允许处理长链思维轨迹和多步骤工具使用日志。

训练过程分为两个阶段：第一阶段在Falcon-H1-7B基础上进行监督微调，使用数学、编码和科学等领域的逐步长形式推理数据；第二阶段采用GRPO强化学习方法，通过符号检查和单元测试奖励正确推理链，优化模型在令牌预算内保持有用中间步骤。

在数学基准测试中，Falcon H1R-7B总得分73.96%，超过Apriel-1.5-15B的69.32%及更大模型；在编码和代理任务中，总得分33.95%，LiveCodeBench v6得分68.6%高于Qwen3-32B；通用推理任务总得分49.48%，MMLU Pro得分72.1%高于其他基准。

背景阅读

Falcon H1R-7B是阿布扎比技术创新研究所开发的推理专用模型，基于Falcon系列模型，该系列以高效和开源著称。模型采用混合Transformer与Mamba2架构，Mamba2是一种状态空间模型，能提供线性时间序列处理能力，适合长上下文场景。训练中结合监督微调和强化学习，GRPO方法通过组相对策略优化提升推理准确性。在AI领域，小型模型如7B参数模型正通过架构创新和训练优化，在特定任务如数学和编码推理上挑战更大模型，这反映了模型效率提升的趋势。相关技术背景包括Transformer架构的广泛应用、Mamba模型在序列建模中的进展，以及强化学习在AI训练中的角色。

阿布扎比TII发布Falcon H1R-7B：7B参数推理模型在数学和编码任务中超越更大模型

背景阅读

相关阅读

OpenAI 通过 Responses API 向开发者开放 GPT-5.2 Codex

不同AI模型在编码现实时呈现趋同现象

姚班传奇陈立杰加盟OpenAI，负责数学推理研究

评论 (0)