Hugging Face 发布 ScreenSuite:最全面的 GUI 智能体评估套件

1 天前·来源:Hugging Face Blog
Hugging FaceGUI 智能体评估套件视觉语言模型基准测试

Hugging Face 发布了 ScreenSuite,这是一个用于评估 GUI 智能体性能的全面套件。ScreenSuite 整合了 13 个基准测试,涵盖感知、定位、单步和多步行动等能力。该套件支持 E2B 桌面沙箱和 Docker 虚拟环境,便于在 Windows、Android 和 Ubuntu 等平台上进行测试。

Hugging Face 发布了 ScreenSuite,这是一个用于评估 GUI 智能体性能的全面套件。GUI 智能体是指能够在图形用户界面中执行任务的 AI 模型,例如点击、输入和滚动,以完成如填写 Excel 表格或在线购物等操作。ScreenSuite 整合了 13 个基准测试,覆盖了 GUI 智能体的关键能力类别,包括感知、定位、单步行动和多步行动。这些基准测试基于现有研究,如 Xu 等人(2025)和 Qin 等人(2025)的工作,旨在标准化评估过程。为了支持多步行动评估,ScreenSuite 提供了对 E2B 桌面远程沙箱的支持,并新增了在 Docker 中轻松启动 Ubuntu 或 Android 虚拟机的选项。这使得开发者能够在不同环境中测试智能体的表现,例如 Windows、Android 和 Ubuntu 系统。ScreenSuite 的发布旨在促进 GUI 智能体的开放性和可访问性,帮助研究者和开发者更有效地评估和集成这些模型。用户可以通过 Hugging Face 的 GitHub 仓库访问 ScreenSuite,并尝试其开源的计算机智能体示例。

背景阅读

GUI 智能体是 AI 领域的一个新兴分支,专注于让 AI 模型在图形用户界面中执行任务,类似于人类操作计算机或手机。这类智能体通常基于视觉语言模型,结合屏幕截图和自然语言指令来决策行动,如点击坐标或输入文本。近年来,随着多模态 AI 技术的发展,GUI 智能体在自动化办公、软件测试和辅助工具等场景中展现出潜力。然而,评估 GUI 智能体的性能面临挑战,因为需要模拟真实环境并测试多种能力,包括视觉感知、元素定位和复杂任务规划。此前,行业缺乏统一的评估标准,导致不同研究之间的比较困难。Hugging Face 作为开源 AI 社区的重要平台,一直致力于推动 AI 技术的开放和标准化,ScreenSuite 的发布是其在这一方向上的最新努力,旨在为 GUI 智能体研究提供全面的基准测试工具。

评论 (0)

登录后参与评论

加载评论中...