CAMEL AI、Eigent AI及其他合作者发布了SETA,这是一个专注于终端智能体强化学习的工具包和环境栈。该项目针对在Unix风格shell中操作的智能体,需在Terminal Bench等基准测试下完成可验证任务。SETA包含三个主要贡献:在Terminal Bench上实现最先进的终端智能体性能,基于Claude Sonnet-4.5的智能体在Terminal Bench 2.0上达到46.5%准确率,基于GPT-4.1的智能体在Terminal Bench 1.0上达到35%准确率;提供可扩展的强化学习训练,发布包含400个终端任务的合成数据集,其中260个任务用于Qwen3-8B模型的RLVR微调;设计通用智能体架构,同一实现适用于本地任务运行和官方Terminal Bench评估框架。SETA代码库展示了一个Terminal Toolkit,将语言模型转换为可执行的终端智能体。该框架为每个任务运行创建结构化日志目录,包括chatagent.log记录代理消息和工具调用历史,sessions目录存储终端交互会话日志,tests.log记录测试输出,便于调试。官方Terminal Bench评估提供单独入口点,运行脚本后结果写入JSON文件。研究团队还引入了Note Taking Toolkit,作为长期任务的持久内存,智能体可在解决终端任务时以结构化方式读写笔记。SETA的智能体框架在Terminal Bench上取得领先结果,在git工作流、DevOps自动化和代码安全任务中表现突出。