SETA开源发布:终端智能体强化学习环境,含400任务与CAMEL工具包

2026/1/13·来源:MarkTechPost
强化学习终端智能体开源工具AI基准测试CAMEL AI

CAMEL AI、Eigent AI等团队发布了SETA,这是一个专注于终端智能体强化学习的开源工具包和环境栈。SETA包含400个合成终端任务,用于训练和评估智能体在Unix风格shell中的操作能力。基于Claude Sonnet-4.5的智能体在Terminal Bench 2.0上达到46.5%准确率,表现领先。

CAMEL AI、Eigent AI及其他合作者发布了SETA,这是一个专注于终端智能体强化学习的工具包和环境栈。该项目针对在Unix风格shell中操作的智能体,需在Terminal Bench等基准测试下完成可验证任务。SETA包含三个主要贡献:在Terminal Bench上实现最先进的终端智能体性能,基于Claude Sonnet-4.5的智能体在Terminal Bench 2.0上达到46.5%准确率,基于GPT-4.1的智能体在Terminal Bench 1.0上达到35%准确率;提供可扩展的强化学习训练,发布包含400个终端任务的合成数据集,其中260个任务用于Qwen3-8B模型的RLVR微调;设计通用智能体架构,同一实现适用于本地任务运行和官方Terminal Bench评估框架。SETA代码库展示了一个Terminal Toolkit,将语言模型转换为可执行的终端智能体。该框架为每个任务运行创建结构化日志目录,包括chatagent.log记录代理消息和工具调用历史,sessions目录存储终端交互会话日志,tests.log记录测试输出,便于调试。官方Terminal Bench评估提供单独入口点,运行脚本后结果写入JSON文件。研究团队还引入了Note Taking Toolkit,作为长期任务的持久内存,智能体可在解决终端任务时以结构化方式读写笔记。SETA的智能体框架在Terminal Bench上取得领先结果,在git工作流、DevOps自动化和代码安全任务中表现突出。

背景阅读

终端智能体是人工智能领域的一个新兴研究方向,专注于开发能够在命令行界面(如Unix shell)中自主执行任务的智能系统。这类智能体通常基于大型语言模型,通过强化学习进行训练,以完成文件操作、系统管理、代码编译等实际任务。强化学习环境对于训练此类智能体至关重要,但传统方法往往依赖真实环境或有限模拟,限制了可扩展性和多样性。SETA的发布填补了这一空白,提供了合成数据集和标准化评估框架。Terminal Bench作为基准测试,评估智能体在真实世界任务中的性能,包括git操作、DevOps自动化和安全扫描等。此前,终端智能体研究多集中在特定任务或小规模环境,SETA通过开源工具包和400个任务,促进了该领域的协作和进展。相关技术背景包括强化学习从人类反馈中学习(RLHF)和视觉语言模型(VLM)在终端环境的应用,但SETA专注于纯文本交互和结构化工具调用。这一工作有助于推动AI在自动化运维、开发工具集成等实际场景的应用。

评论 (0)

登录后参与评论

加载评论中...