Holo1:新型GUI自动化视觉语言模型家族发布,赋能Surfer-H代理

1 天前·来源:Hugging Face Blog
Holo1视觉语言模型GUI自动化开源模型Surfer-H

H公司发布了Holo1,这是一个专为深度网络UI理解和精确定位设计的开源动作视觉语言模型家族。该家族包括Holo1-3B和Holo1-7B模型,后者在常见UI定位基准测试中达到76.2%的平均准确率。Holo1模型基于Qwen2.5-VL架构,完全兼容transformers,并支持WebClick基准数据集。

H公司发布了Holo1,这是一个专为深度网络UI理解和精确定位设计的开源动作视觉语言模型家族。该家族包括Holo1-3B和Holo1-7B模型,其中Holo1-7B在常见UI定位基准测试中达到76.2%的平均准确率,是小型模型中的最高水平。Holo1模型基于Qwen2.5-VL架构,完全兼容transformers,并已开源发布在Hugging Face平台上。同时,H公司还发布了WebClick基准数据集,包含1,639个类人UI任务。

Holo1模型可用于加载和处理图像,通过指令生成点击位置。例如,给定一张GUI图像和指令“选择7月14日作为退房日期”,模型可以输出Click(352, 348)格式的坐标。这些模型支持从Hugging Face加载,使用AutoModelForImageTextToText和AutoProcessor进行推理。

Surfer-H是一个基于Holo1模型的网络原生代理,能够像人类一样与浏览器交互。它采用模块化架构,包括策略模型、定位器模型和验证器模型,执行阅读、思考、点击、滚动、打字和验证等完整网络任务。Surfer-H通过纯浏览器操作实现自动化,无需依赖自定义API或脆弱包装器,在实际网络任务中达到92.2%的准确率,每任务成本仅为0.13美元。

背景阅读

视觉语言模型(VLMs)是结合计算机视觉和自然语言处理技术的AI模型,能够理解和生成基于图像和文本的多模态内容。近年来,VLMs在GUI自动化领域应用逐渐增多,旨在模拟人类与图形用户界面的交互,如点击、滚动和输入等动作。传统GUI自动化工具通常依赖脚本或API,但存在易碎性和维护成本高的问题。开源模型如Qwen2.5-VL为这类任务提供了基础架构,而Holo1家族在此基础上针对网络UI进行了优化。Hugging Face作为开源AI模型和数据集平台,促进了此类技术的共享和评估。WebClick基准数据集的发布,为评估GUI定位性能提供了标准化测试环境,有助于推动AI在自动化领域的实用化发展。

评论 (0)

登录后参与评论

加载评论中...