NeoBeta - AI 科技资讯

H公司发布了Holo1，这是一个专为深度网络UI理解和精确定位设计的开源动作视觉语言模型家族。该家族包括Holo1-3B和Holo1-7B模型，其中Holo1-7B在常见UI定位基准测试中达到76.2%的平均准确率，是小型模型中的最高水平。Holo1模型基于Qwen2.5-VL架构，完全兼容transformers，并已开源发布在Hugging Face平台上。同时，H公司还发布了WebClick基准数据集，包含1,639个类人UI任务。

Holo1模型可用于加载和处理图像，通过指令生成点击位置。例如，给定一张GUI图像和指令“选择7月14日作为退房日期”，模型可以输出Click(352, 348)格式的坐标。这些模型支持从Hugging Face加载，使用AutoModelForImageTextToText和AutoProcessor进行推理。

Surfer-H是一个基于Holo1模型的网络原生代理，能够像人类一样与浏览器交互。它采用模块化架构，包括策略模型、定位器模型和验证器模型，执行阅读、思考、点击、滚动、打字和验证等完整网络任务。Surfer-H通过纯浏览器操作实现自动化，无需依赖自定义API或脆弱包装器，在实际网络任务中达到92.2%的准确率，每任务成本仅为0.13美元。

背景阅读

视觉语言模型（VLMs）是结合计算机视觉和自然语言处理技术的AI模型，能够理解和生成基于图像和文本的多模态内容。近年来，VLMs在GUI自动化领域应用逐渐增多，旨在模拟人类与图形用户界面的交互，如点击、滚动和输入等动作。传统GUI自动化工具通常依赖脚本或API，但存在易碎性和维护成本高的问题。开源模型如Qwen2.5-VL为这类任务提供了基础架构，而Holo1家族在此基础上针对网络UI进行了优化。Hugging Face作为开源AI模型和数据集平台，促进了此类技术的共享和评估。WebClick基准数据集的发布，为评估GUI定位性能提供了标准化测试环境，有助于推动AI在自动化领域的实用化发展。

Holo1：新型GUI自动化视觉语言模型家族发布，赋能Surfer-H代理

背景阅读

相关阅读

Google推出Gemini Robotics On-Device，将AI模型本地部署至机器人设备

NVIDIA Llama Nemotron Nano VLM 模型登陆 Hugging Face Hub

Hugging Face 发布 ScreenSuite：最全面的 GUI 智能体评估套件

评论 (0)