Hugging Face今天发布了SmolVLA,这是一个紧凑的开源视觉-语言-动作模型,参数量为4.5亿,可在消费级硬件上运行。该模型仅使用Lerobot标签下的兼容许可开源社区共享数据集进行预训练。在模拟任务和真实世界任务中,SmolVLA-450M的表现优于更大的视觉-语言-动作模型和强基线模型。它支持异步推理,响应速度提升30%,任务吞吐量提高2倍。模型权重、训练和推理方法已公开,可在SO-100、SO-101等低成本硬件上测试和部署。
Hugging Face发布了SmolVLA,这是一个开源的视觉-语言-动作模型,参数量为4.5亿。该模型在模拟和真实世界机器人任务中表现优于更大模型,支持异步推理以提升响应速度。SmolVLA旨在通过开源模型和硬件降低机器人AI研究门槛。
Hugging Face今天发布了SmolVLA,这是一个紧凑的开源视觉-语言-动作模型,参数量为4.5亿,可在消费级硬件上运行。该模型仅使用Lerobot标签下的兼容许可开源社区共享数据集进行预训练。在模拟任务和真实世界任务中,SmolVLA-450M的表现优于更大的视觉-语言-动作模型和强基线模型。它支持异步推理,响应速度提升30%,任务吞吐量提高2倍。模型权重、训练和推理方法已公开,可在SO-100、SO-101等低成本硬件上测试和部署。
视觉-语言-动作模型是机器人领域的一个新兴方向,旨在将视觉感知、语言理解和动作预测统一到单一架构中。近年来,Transformer架构在AI领域取得了显著进展,推动了语言模型和多模态系统的发展,但机器人领域的进步相对缓慢,主要受限于高质量多样化数据的缺乏以及模型在物理世界中推理和行动能力的不足。传统机器人模型往往依赖专有数据和昂贵硬件,限制了研究的可及性。开源社区如Hugging Face通过提供公开数据集和模型,正努力降低这些门槛,促进更广泛的创新和应用。SmolVLA的发布是这一趋势的体现,它结合了大型语言模型的训练范式,专注于机器人操作任务,有望加速通用机器人代理的研究。
Google发布了Gemini Robotics On-Device,这是一款专为机器人设备优化的本地运行视觉语言动作模型。该模型具备强大的通用灵巧性和任务泛化能力,可在无网络连接环境下运行。同时,Google提供了Gemini Robotics SDK,帮助开发者快速评估和适配模型到新任务中。
Hugging Face 与 NVIDIA 在 GTC Paris 上宣布推出训练集群即服务。该服务旨在让全球研究机构更容易访问大型 GPU 集群。用户可按需请求 GPU 集群,仅支付训练期间的费用。
Hugging Face 发布了 ScreenSuite,这是一个用于评估 GUI 智能体性能的全面套件。ScreenSuite 整合了 13 个基准测试,涵盖感知、定位、单步和多步行动等能力。该套件支持 E2B 桌面沙箱和 Docker 虚拟环境,便于在 Windows、Android 和 Ubuntu 等平台上进行测试。
登录后参与评论