Hugging Face 推出 Jupyter Agent:训练 LLM 在笔记本中执行代码推理

1 天前·来源:Hugging Face Blog
Hugging FaceJupyter AgentAI代理数据科学代码执行

Hugging Face 发布了 Jupyter Agent,旨在训练大型语言模型在 Jupyter 笔记本环境中执行代码以解决数据科学任务。该项目基于 Qwen-3 Coder 模型构建演示,并利用 DABStep 基准评估模型性能。研究团队计划通过生成高质量训练数据和微调小模型来提升代理能力。

Hugging Face 发布了 Jupyter Agent,这是一个旨在训练大型语言模型在 Jupyter 笔记本环境中执行代码以解决数据分析和数据科学任务的项目。Jupyter Agent 允许模型直接在 Jupyter 笔记本中运行代码,结合代码和 Markdown 单元格展示多步代码执行和推理过程。该项目基于 Qwen-3 Coder 模型构建了一个演示,Qwen-3 Coder 是目前最强的编码模型之一,这是对早期 jupyter-agent (v1) 工作的延续。

为了评估数据科学代理的能力,Hugging Face 与 Adyen 合作引入了 DABStep 基准,该基准通过提供数据集并要求模型回答非平凡数据问题来测试模型。例如,任务包括识别 2023 年欺诈率最高的卡方案或为特定商户计算最具成本效益的选项。当前最佳模型 Claude 4 Sonnet 在困难任务上的准确率不足 20%。

研究团队选择了 Qwen3-4B-Thinking-2507 作为初始基线模型,这是一个极小的模型,便于快速迭代和运行。基线结果显示,在简单任务上准确率为 44.4%,在困难任务上为 2.1%,表明有较大改进空间。项目目标是通过生成高质量训练数据、微调现有小模型,并评估其在相关基准上的性能提升。

代理模型与纯聊天模型的核心区别在于围绕模型构建的脚手架,用于引导其行为。DABStep 评估脚本使用 smolagents 执行代码,smolagents 提供了预定义的行为、提示结构和预期格式。团队还研究了 Qwen-Agent 代码库,其中作者为模型定制了脚手架。

背景阅读

Jupyter Agent 是 Hugging Face 在 AI 代理领域的最新进展,专注于提升大型语言模型在数据科学任务中的代码执行和推理能力。近年来,随着 AI 模型如 GPT-4、Claude 和 Gemini 的发展,代理系统逐渐成为研究热点,旨在赋予模型更多工具和自主性以处理复杂、开放式任务。Jupyter 笔记本作为一种流行的数据科学工具,结合代码和文档,为展示多步推理提供了自然环境。 在 AI 代理技术中,脚手架是关键组成部分,它通过外部框架(如 smolagents)引导模型行为,确保代码执行和任务完成的准确性。这与传统的聊天模型不同,后者主要依赖文本生成。DABStep 基准的引入反映了行业对评估数据科学代理性能的需求,该基准基于真实数据集设计,挑战模型解决实际数据问题。 Qwen-3 Coder 和 Qwen3-4B-Thinking-2507 是阿里通义千问系列中的编码模型,代表了当前小模型在代理场景中的潜力。Hugging Face 作为开源 AI 社区的重要平台,持续推动模型微调和基准测试,以促进 AI 技术在数据科学等领域的应用。

评论 (0)

登录后参与评论

加载评论中...