SmolVLA：基于Lerobot社区数据训练的高效视觉-语言-动作模型

1 天前·来源：Hugging Face Blog

SmolVLA视觉-语言-动作模型机器人AI开源模型Hugging Face

Hugging Face发布了SmolVLA，这是一个开源的视觉-语言-动作模型，参数量为4.5亿。该模型在模拟和真实世界机器人任务中表现优于更大模型，支持异步推理以提升响应速度。SmolVLA旨在通过开源模型和硬件降低机器人AI研究门槛。

Hugging Face今天发布了SmolVLA，这是一个紧凑的开源视觉-语言-动作模型，参数量为4.5亿，可在消费级硬件上运行。该模型仅使用Lerobot标签下的兼容许可开源社区共享数据集进行预训练。在模拟任务和真实世界任务中，SmolVLA-450M的表现优于更大的视觉-语言-动作模型和强基线模型。它支持异步推理，响应速度提升30%，任务吞吐量提高2倍。模型权重、训练和推理方法已公开，可在SO-100、SO-101等低成本硬件上测试和部署。

阅读原文

背景阅读

视觉-语言-动作模型是机器人领域的一个新兴方向，旨在将视觉感知、语言理解和动作预测统一到单一架构中。近年来，Transformer架构在AI领域取得了显著进展，推动了语言模型和多模态系统的发展，但机器人领域的进步相对缓慢，主要受限于高质量多样化数据的缺乏以及模型在物理世界中推理和行动能力的不足。传统机器人模型往往依赖专有数据和昂贵硬件，限制了研究的可及性。开源社区如Hugging Face通过提供公开数据集和模型，正努力降低这些门槛，促进更广泛的创新和应用。SmolVLA的发布是这一趋势的体现，它结合了大型语言模型的训练范式，专注于机器人操作任务，有望加速通用机器人代理的研究。

SmolVLA：基于Lerobot社区数据训练的高效视觉-语言-动作模型

背景阅读

相关阅读

Google推出Gemini Robotics On-Device，将AI模型本地部署至机器人设备

Hugging Face 与 NVIDIA 合作推出训练集群即服务

Hugging Face 发布 ScreenSuite：最全面的 GUI 智能体评估套件

评论 (0)