Hugging Face 发布了 Jupyter Agent,这是一个旨在训练大型语言模型在 Jupyter 笔记本环境中执行代码以解决数据分析和数据科学任务的项目。Jupyter Agent 允许模型直接在 Jupyter 笔记本中运行代码,结合代码和 Markdown 单元格展示多步代码执行和推理过程。该项目基于 Qwen-3 Coder 模型构建了一个演示,Qwen-3 Coder 是目前最强的编码模型之一,这是对早期 jupyter-agent (v1) 工作的延续。
为了评估数据科学代理的能力,Hugging Face 与 Adyen 合作引入了 DABStep 基准,该基准通过提供数据集并要求模型回答非平凡数据问题来测试模型。例如,任务包括识别 2023 年欺诈率最高的卡方案或为特定商户计算最具成本效益的选项。当前最佳模型 Claude 4 Sonnet 在困难任务上的准确率不足 20%。
研究团队选择了 Qwen3-4B-Thinking-2507 作为初始基线模型,这是一个极小的模型,便于快速迭代和运行。基线结果显示,在简单任务上准确率为 44.4%,在困难任务上为 2.1%,表明有较大改进空间。项目目标是通过生成高质量训练数据、微调现有小模型,并评估其在相关基准上的性能提升。
代理模型与纯聊天模型的核心区别在于围绕模型构建的脚手架,用于引导其行为。DABStep 评估脚本使用 smolagents 执行代码,smolagents 提供了预定义的行为、提示结构和预期格式。团队还研究了 Qwen-Agent 代码库,其中作者为模型定制了脚手架。