英特尔AI软件团队发布了DeepMath,这是一个对齐的数学推理代理,基于Qwen3-4B Thinking模型,并使用GRPO(组相对策略优化)进行微调。模型不生成冗长的文本,而是输出微小的Python代码片段用于中间步骤,在安全的沙箱中运行它们,并将结果整合回推理过程中,从而减少错误和输出长度。该代理使用smolagents库实现。DeepMath在四个数学数据集上进行了评估:MATH500、AIME、HMMT和HLE。结果显示,数学代理单独使用可将输出长度减少高达66%,同时通常提高准确性。GRPO训练进一步提升了代理性能,在几乎所有基准测试中都有改善。代码和评估脚本可在GitHub上获取,模型可在Hugging Face上访问。DeepMath旨在将确定性计算卸载到安全执行器中,并训练模型偏好简洁、面向计算的跟踪,而不是冗长的文本。它结合了小型Python执行器和微调的LLM,实现简洁、计算驱动的推理。模型学习生成短Python代码片段,在沙箱中执行并重新集成到上下文中。GRPO微调通过奖励正确性和鼓励更短输出来促进这种行为。基础模型是Qwen3-4B Thinking,执行器约束包括沙箱环境、允许导入的模块列表和每个代码片段的超时设置。推理基于smolagents创建数学代理,使用vLLM作为推理引擎。训练基于TRL中的GRPO训练器,修改了TRL的vLLM客户端和服务器以使用DeepMath代理生成GRPO完成。代理接口允许模型输出正常令牌或包含Python代码片段的特殊代理调用。执行在具有严格安全约束的沙箱环境中进行,设计目标包括简洁性、确定性和安全性以及可解释性。