Hugging Face 发布了 ScreenSuite,这是一个用于评估 GUI 智能体性能的全面套件。GUI 智能体是指能够在图形用户界面中执行任务的 AI 模型,例如点击、输入和滚动,以完成如填写 Excel 表格或在线购物等操作。ScreenSuite 整合了 13 个基准测试,覆盖了 GUI 智能体的关键能力类别,包括感知、定位、单步行动和多步行动。这些基准测试基于现有研究,如 Xu 等人(2025)和 Qin 等人(2025)的工作,旨在标准化评估过程。为了支持多步行动评估,ScreenSuite 提供了对 E2B 桌面远程沙箱的支持,并新增了在 Docker 中轻松启动 Ubuntu 或 Android 虚拟机的选项。这使得开发者能够在不同环境中测试智能体的表现,例如 Windows、Android 和 Ubuntu 系统。ScreenSuite 的发布旨在促进 GUI 智能体的开放性和可访问性,帮助研究者和开发者更有效地评估和集成这些模型。用户可以通过 Hugging Face 的 GitHub 仓库访问 ScreenSuite,并尝试其开源的计算机智能体示例。