NeoBeta - AI 科技资讯

Google推出了Gemini Robotics On-Device，这是一款高效的本地机器人模型，具备通用灵巧性和快速任务适应能力。该模型基于Gemini Robotics，是专为在机器人设备上本地运行而优化的最强大视觉语言动作模型。Gemini Robotics On-Device展示了强大的通用灵巧性和任务泛化能力，并针对机器人本身的效率运行进行了优化。由于模型独立于数据网络运行，它适用于对延迟敏感的应用，并确保在间歇性或零连接环境中的鲁棒性。Google还分享了Gemini Robotics SDK，帮助开发者轻松评估Gemini Robotics On-Device在其任务和环境中的表现，在MuJoCo物理模拟器中测试模型，并快速将其适配到新领域，仅需50到100个演示示例。开发者可以通过注册可信测试者计划访问SDK。Gemini Robotics On-Device是一款针对双臂机器人的机器人基础模型，设计为需要最小计算资源。它建立在Gemini Robotics的任务泛化和灵巧性能力基础上，在广泛测试场景中实现了强大的视觉、语义和行为泛化，遵循自然语言指令，并完成高度灵巧的任务，如拉开拉链或折叠衣物，所有这些操作都在机器人上直接进行。在评估中，On-Device模式在完全本地运行时表现出强大的泛化性能。Gemini Robotics On-Device在更具挑战性的分布外任务和复杂多步指令上优于其他本地替代方案。对于在这些设置中寻求最先进结果且不受本地限制的开发者，Google还提供Gemini Robotics模型。Gemini Robotics On-Device是Google首个可供微调的视觉语言动作模型。虽然许多任务可以开箱即用，开发者也可以选择适配模型以获得更好的应用性能。该模型能快速适应新任务，仅需50到100个演示示例，这表明这款本地模型能将其基础知识泛化到新任务中。Google进一步将Gemini Robotics On-Device模型适配到不同的机器人实体上。虽然模型仅针对ALOHA机器人进行训练，但Google能够将其进一步适配到双臂Franka FR3机器人和Apptronik的Apollo人形机器人。在双臂Franka上，模型执行通用指令跟随，包括处理先前任务。

背景阅读

Gemini Robotics是Google DeepMind在2024年3月推出的先进视觉语言动作模型，它将Gemini 2.0的多模态推理和现实世界理解能力引入物理世界。视觉语言动作模型是人工智能领域的一个重要分支，结合了计算机视觉、自然语言处理和机器人控制技术，使机器人能够通过视觉感知和语言指令执行复杂任务。传统机器人模型通常依赖云端计算或大量数据连接，而本地运行模型如Gemini Robotics On-Device则专注于在设备端直接处理任务，减少延迟并提高在无网络环境下的可靠性。这一发展反映了AI模型向边缘计算和机器人应用的扩展趋势，旨在提升机器人的自主性和适应性。Google通过提供SDK和微调能力，进一步降低了开发者应用门槛，推动了AI在机器人领域的普及和创新。

Google推出Gemini Robotics On-Device，将AI模型本地部署至机器人设备

背景阅读

相关阅读

Gemma 3n 模型全面开源，支持多模态本地运行

NVIDIA Llama Nemotron Nano VLM 模型登陆 Hugging Face Hub

谷歌发布EmbeddingGemma，高效多语言嵌入模型

评论 (0)