Google推出了Gemini Robotics On-Device,这是一款高效的本地机器人模型,具备通用灵巧性和快速任务适应能力。该模型基于Gemini Robotics,是专为在机器人设备上本地运行而优化的最强大视觉语言动作模型。Gemini Robotics On-Device展示了强大的通用灵巧性和任务泛化能力,并针对机器人本身的效率运行进行了优化。由于模型独立于数据网络运行,它适用于对延迟敏感的应用,并确保在间歇性或零连接环境中的鲁棒性。Google还分享了Gemini Robotics SDK,帮助开发者轻松评估Gemini Robotics On-Device在其任务和环境中的表现,在MuJoCo物理模拟器中测试模型,并快速将其适配到新领域,仅需50到100个演示示例。开发者可以通过注册可信测试者计划访问SDK。Gemini Robotics On-Device是一款针对双臂机器人的机器人基础模型,设计为需要最小计算资源。它建立在Gemini Robotics的任务泛化和灵巧性能力基础上,在广泛测试场景中实现了强大的视觉、语义和行为泛化,遵循自然语言指令,并完成高度灵巧的任务,如拉开拉链或折叠衣物,所有这些操作都在机器人上直接进行。在评估中,On-Device模式在完全本地运行时表现出强大的泛化性能。Gemini Robotics On-Device在更具挑战性的分布外任务和复杂多步指令上优于其他本地替代方案。对于在这些设置中寻求最先进结果且不受本地限制的开发者,Google还提供Gemini Robotics模型。Gemini Robotics On-Device是Google首个可供微调的视觉语言动作模型。虽然许多任务可以开箱即用,开发者也可以选择适配模型以获得更好的应用性能。该模型能快速适应新任务,仅需50到100个演示示例,这表明这款本地模型能将其基础知识泛化到新任务中。Google进一步将Gemini Robotics On-Device模型适配到不同的机器人实体上。虽然模型仅针对ALOHA机器人进行训练,但Google能够将其进一步适配到双臂Franka FR3机器人和Apptronik的Apollo人形机器人。在双臂Franka上,模型执行通用指令跟随,包括处理先前任务。