H公司发布了Holo1,这是一个专为深度网络UI理解和精确定位设计的开源动作视觉语言模型家族。该家族包括Holo1-3B和Holo1-7B模型,其中Holo1-7B在常见UI定位基准测试中达到76.2%的平均准确率,是小型模型中的最高水平。Holo1模型基于Qwen2.5-VL架构,完全兼容transformers,并已开源发布在Hugging Face平台上。同时,H公司还发布了WebClick基准数据集,包含1,639个类人UI任务。
Holo1模型可用于加载和处理图像,通过指令生成点击位置。例如,给定一张GUI图像和指令“选择7月14日作为退房日期”,模型可以输出Click(352, 348)格式的坐标。这些模型支持从Hugging Face加载,使用AutoModelForImageTextToText和AutoProcessor进行推理。
Surfer-H是一个基于Holo1模型的网络原生代理,能够像人类一样与浏览器交互。它采用模块化架构,包括策略模型、定位器模型和验证器模型,执行阅读、思考、点击、滚动、打字和验证等完整网络任务。Surfer-H通过纯浏览器操作实现自动化,无需依赖自定义API或脆弱包装器,在实际网络任务中达到92.2%的准确率,每任务成本仅为0.13美元。