英特尔发布轻量级数学推理代理DeepMath

2 天前·来源:Hugging Face Blog
英特尔DeepMath数学推理AI代理GRPO

英特尔AI软件团队发布了DeepMath,这是一个基于Qwen3-4B Thinking模型的轻量级数学推理代理。该模型通过生成Python代码片段在沙箱中执行,以减少错误和输出长度。DeepMath在多个数学数据集上进行了评估,并展示了性能提升。

英特尔AI软件团队发布了DeepMath,这是一个对齐的数学推理代理,基于Qwen3-4B Thinking模型,并使用GRPO(组相对策略优化)进行微调。模型不生成冗长的文本,而是输出微小的Python代码片段用于中间步骤,在安全的沙箱中运行它们,并将结果整合回推理过程中,从而减少错误和输出长度。该代理使用smolagents库实现。DeepMath在四个数学数据集上进行了评估:MATH500、AIME、HMMT和HLE。结果显示,数学代理单独使用可将输出长度减少高达66%,同时通常提高准确性。GRPO训练进一步提升了代理性能,在几乎所有基准测试中都有改善。代码和评估脚本可在GitHub上获取,模型可在Hugging Face上访问。DeepMath旨在将确定性计算卸载到安全执行器中,并训练模型偏好简洁、面向计算的跟踪,而不是冗长的文本。它结合了小型Python执行器和微调的LLM,实现简洁、计算驱动的推理。模型学习生成短Python代码片段,在沙箱中执行并重新集成到上下文中。GRPO微调通过奖励正确性和鼓励更短输出来促进这种行为。基础模型是Qwen3-4B Thinking,执行器约束包括沙箱环境、允许导入的模块列表和每个代码片段的超时设置。推理基于smolagents创建数学代理,使用vLLM作为推理引擎。训练基于TRL中的GRPO训练器,修改了TRL的vLLM客户端和服务器以使用DeepMath代理生成GRPO完成。代理接口允许模型输出正常令牌或包含Python代码片段的特殊代理调用。执行在具有严格安全约束的沙箱环境中进行,设计目标包括简洁性、确定性和安全性以及可解释性。

背景阅读

大型语言模型(LLMs)在推理能力方面取得了进展,但数学问题解决仍然具有挑战性;思维链跟踪可能冗长且容易产生算术错误。最近的研究表明,小型模型可以达到强大的性能,而其他研究则探讨了工具使用以提高可靠性。这些论文通常不强调减少跟踪冗长或明确训练模型偏好短小、面向计算的跟踪,并在受约束、可审计的环境中执行。DeepMath通过结合小型Python执行器和微调的LLM,专注于将确定性计算卸载到安全执行器中,并训练模型生成简洁的代码片段,以改善数学推理的效率和准确性。这一方法借鉴了现有技术,如GRPO优化和沙箱执行,旨在解决LLMs在数学领域中的常见问题。

评论 (0)

登录后参与评论

加载评论中...