NeoBeta - AI 科技资讯

CAMEL AI、Eigent AI及其他合作者发布了SETA，这是一个专注于终端智能体强化学习的工具包和环境栈。该项目针对在Unix风格shell中操作的智能体，需在Terminal Bench等基准测试下完成可验证任务。SETA包含三个主要贡献：在Terminal Bench上实现最先进的终端智能体性能，基于Claude Sonnet-4.5的智能体在Terminal Bench 2.0上达到46.5%准确率，基于GPT-4.1的智能体在Terminal Bench 1.0上达到35%准确率；提供可扩展的强化学习训练，发布包含400个终端任务的合成数据集，其中260个任务用于Qwen3-8B模型的RLVR微调；设计通用智能体架构，同一实现适用于本地任务运行和官方Terminal Bench评估框架。SETA代码库展示了一个Terminal Toolkit，将语言模型转换为可执行的终端智能体。该框架为每个任务运行创建结构化日志目录，包括chatagent.log记录代理消息和工具调用历史，sessions目录存储终端交互会话日志，tests.log记录测试输出，便于调试。官方Terminal Bench评估提供单独入口点，运行脚本后结果写入JSON文件。研究团队还引入了Note Taking Toolkit，作为长期任务的持久内存，智能体可在解决终端任务时以结构化方式读写笔记。SETA的智能体框架在Terminal Bench上取得领先结果，在git工作流、DevOps自动化和代码安全任务中表现突出。

背景阅读

终端智能体是人工智能领域的一个新兴研究方向，专注于开发能够在命令行界面（如Unix shell）中自主执行任务的智能系统。这类智能体通常基于大型语言模型，通过强化学习进行训练，以完成文件操作、系统管理、代码编译等实际任务。强化学习环境对于训练此类智能体至关重要，但传统方法往往依赖真实环境或有限模拟，限制了可扩展性和多样性。SETA的发布填补了这一空白，提供了合成数据集和标准化评估框架。Terminal Bench作为基准测试，评估智能体在真实世界任务中的性能，包括git操作、DevOps自动化和安全扫描等。此前，终端智能体研究多集中在特定任务或小规模环境，SETA通过开源工具包和400个任务，促进了该领域的协作和进展。相关技术背景包括强化学习从人类反馈中学习（RLHF）和视觉语言模型（VLM）在终端环境的应用，但SETA专注于纯文本交互和结构化工具调用。这一工作有助于推动AI在自动化运维、开发工具集成等实际场景的应用。

SETA开源发布：终端智能体强化学习环境，含400任务与CAMEL工具包

背景阅读

相关阅读

AI心理研究：大模型将训练过程描述为创伤记忆

Anthropic 发布 Claude Cowork，为非开发者提供 AI 计算机代理

KAN一作刘子鸣回国任教，清华官网认证

评论 (0)