NeoBeta - AI 科技资讯

Hugging Face 发布了 ScreenSuite，这是一个用于评估 GUI 智能体性能的全面套件。GUI 智能体是指能够在图形用户界面中执行任务的 AI 模型，例如点击、输入和滚动，以完成如填写 Excel 表格或在线购物等操作。ScreenSuite 整合了 13 个基准测试，覆盖了 GUI 智能体的关键能力类别，包括感知、定位、单步行动和多步行动。这些基准测试基于现有研究，如 Xu 等人（2025）和 Qin 等人（2025）的工作，旨在标准化评估过程。为了支持多步行动评估，ScreenSuite 提供了对 E2B 桌面远程沙箱的支持，并新增了在 Docker 中轻松启动 Ubuntu 或 Android 虚拟机的选项。这使得开发者能够在不同环境中测试智能体的表现，例如 Windows、Android 和 Ubuntu 系统。ScreenSuite 的发布旨在促进 GUI 智能体的开放性和可访问性，帮助研究者和开发者更有效地评估和集成这些模型。用户可以通过 Hugging Face 的 GitHub 仓库访问 ScreenSuite，并尝试其开源的计算机智能体示例。

背景阅读

GUI 智能体是 AI 领域的一个新兴分支，专注于让 AI 模型在图形用户界面中执行任务，类似于人类操作计算机或手机。这类智能体通常基于视觉语言模型，结合屏幕截图和自然语言指令来决策行动，如点击坐标或输入文本。近年来，随着多模态 AI 技术的发展，GUI 智能体在自动化办公、软件测试和辅助工具等场景中展现出潜力。然而，评估 GUI 智能体的性能面临挑战，因为需要模拟真实环境并测试多种能力，包括视觉感知、元素定位和复杂任务规划。此前，行业缺乏统一的评估标准，导致不同研究之间的比较困难。Hugging Face 作为开源 AI 社区的重要平台，一直致力于推动 AI 技术的开放和标准化，ScreenSuite 的发布是其在这一方向上的最新努力，旨在为 GUI 智能体研究提供全面的基准测试工具。

Hugging Face 发布 ScreenSuite：最全面的 GUI 智能体评估套件

背景阅读

相关阅读

Hugging Face 推出 FutureBench 基准测试，评估 AI 代理预测未来事件能力

Ettin Suite：首个SoTA配对编码器与解码器模型套件发布

Hugging Face 与 NVIDIA 合作推出训练集群即服务

评论 (0)