NeoBeta - AI 科技资讯

Hugging Face 发布了 Jupyter Agent，这是一个旨在训练大型语言模型在 Jupyter 笔记本环境中执行代码以解决数据分析和数据科学任务的项目。Jupyter Agent 允许模型直接在 Jupyter 笔记本中运行代码，结合代码和 Markdown 单元格展示多步代码执行和推理过程。该项目基于 Qwen-3 Coder 模型构建了一个演示，Qwen-3 Coder 是目前最强的编码模型之一，这是对早期 jupyter-agent (v1) 工作的延续。

为了评估数据科学代理的能力，Hugging Face 与 Adyen 合作引入了 DABStep 基准，该基准通过提供数据集并要求模型回答非平凡数据问题来测试模型。例如，任务包括识别 2023 年欺诈率最高的卡方案或为特定商户计算最具成本效益的选项。当前最佳模型 Claude 4 Sonnet 在困难任务上的准确率不足 20%。

研究团队选择了 Qwen3-4B-Thinking-2507 作为初始基线模型，这是一个极小的模型，便于快速迭代和运行。基线结果显示，在简单任务上准确率为 44.4%，在困难任务上为 2.1%，表明有较大改进空间。项目目标是通过生成高质量训练数据、微调现有小模型，并评估其在相关基准上的性能提升。

代理模型与纯聊天模型的核心区别在于围绕模型构建的脚手架，用于引导其行为。DABStep 评估脚本使用 smolagents 执行代码，smolagents 提供了预定义的行为、提示结构和预期格式。团队还研究了 Qwen-Agent 代码库，其中作者为模型定制了脚手架。

背景阅读

Jupyter Agent 是 Hugging Face 在 AI 代理领域的最新进展，专注于提升大型语言模型在数据科学任务中的代码执行和推理能力。近年来，随着 AI 模型如 GPT-4、Claude 和 Gemini 的发展，代理系统逐渐成为研究热点，旨在赋予模型更多工具和自主性以处理复杂、开放式任务。Jupyter 笔记本作为一种流行的数据科学工具，结合代码和文档，为展示多步推理提供了自然环境。在 AI 代理技术中，脚手架是关键组成部分，它通过外部框架（如 smolagents）引导模型行为，确保代码执行和任务完成的准确性。这与传统的聊天模型不同，后者主要依赖文本生成。DABStep 基准的引入反映了行业对评估数据科学代理性能的需求，该基准基于真实数据集设计，挑战模型解决实际数据问题。 Qwen-3 Coder 和 Qwen3-4B-Thinking-2507 是阿里通义千问系列中的编码模型，代表了当前小模型在代理场景中的潜力。Hugging Face 作为开源 AI 社区的重要平台，持续推动模型微调和基准测试，以促进 AI 技术在数据科学等领域的应用。

Hugging Face 推出 Jupyter Agent：训练 LLM 在笔记本中执行代码推理

背景阅读

相关阅读

英特尔与Hugging Face合作加速Qwen3-8B智能体推理

BigCodeArena：首个通过代码执行端到端评估AI代码生成的平台

Together AI 支持微调 Hugging Face Hub 上的任何大语言模型

评论 (0)