NeoBeta - AI 科技资讯

英特尔AI软件团队发布了DeepMath，这是一个对齐的数学推理代理，基于Qwen3-4B Thinking模型，并使用GRPO（组相对策略优化）进行微调。模型不生成冗长的文本，而是输出微小的Python代码片段用于中间步骤，在安全的沙箱中运行它们，并将结果整合回推理过程中，从而减少错误和输出长度。该代理使用smolagents库实现。DeepMath在四个数学数据集上进行了评估：MATH500、AIME、HMMT和HLE。结果显示，数学代理单独使用可将输出长度减少高达66%，同时通常提高准确性。GRPO训练进一步提升了代理性能，在几乎所有基准测试中都有改善。代码和评估脚本可在GitHub上获取，模型可在Hugging Face上访问。DeepMath旨在将确定性计算卸载到安全执行器中，并训练模型偏好简洁、面向计算的跟踪，而不是冗长的文本。它结合了小型Python执行器和微调的LLM，实现简洁、计算驱动的推理。模型学习生成短Python代码片段，在沙箱中执行并重新集成到上下文中。GRPO微调通过奖励正确性和鼓励更短输出来促进这种行为。基础模型是Qwen3-4B Thinking，执行器约束包括沙箱环境、允许导入的模块列表和每个代码片段的超时设置。推理基于smolagents创建数学代理，使用vLLM作为推理引擎。训练基于TRL中的GRPO训练器，修改了TRL的vLLM客户端和服务器以使用DeepMath代理生成GRPO完成。代理接口允许模型输出正常令牌或包含Python代码片段的特殊代理调用。执行在具有严格安全约束的沙箱环境中进行，设计目标包括简洁性、确定性和安全性以及可解释性。

背景阅读

大型语言模型（LLMs）在推理能力方面取得了进展，但数学问题解决仍然具有挑战性；思维链跟踪可能冗长且容易产生算术错误。最近的研究表明，小型模型可以达到强大的性能，而其他研究则探讨了工具使用以提高可靠性。这些论文通常不强调减少跟踪冗长或明确训练模型偏好短小、面向计算的跟踪，并在受约束、可审计的环境中执行。DeepMath通过结合小型Python执行器和微调的LLM，专注于将确定性计算卸载到安全执行器中，并训练模型生成简洁的代码片段，以改善数学推理的效率和准确性。这一方法借鉴了现有技术，如GRPO优化和沙箱执行，旨在解决LLMs在数学领域中的常见问题。

英特尔发布轻量级数学推理代理DeepMath

背景阅读

相关阅读

Liquid AI 发布 LFM2.5：紧凑型 AI 模型家族，专为设备端智能体设计

Artificial Analysis 全面改革 AI 智能指数，用真实世界测试取代传统基准

CUGA 登陆 Hugging Face：可配置 AI 智能体的民主化

评论 (0)