Google DeepMind 发布了 Gemini Robotics 1.5 系列模型,旨在将 AI 智能体引入物理世界,使机器人能够感知、规划、思考、使用工具并执行复杂多步骤任务。该系列包括两个模型:Gemini Robotics-ER 1.5 和 Gemini Robotics 1.5,它们在一个智能体框架中协同工作。Gemini Robotics-ER 1.5 作为高级大脑,负责协调机器人活动,具备空间理解、自然语言交互和工具调用能力,如使用 Google 搜索获取信息。它向 Gemini Robotics 1.5 提供自然语言指令,后者利用视觉和语言理解直接执行具体动作,并能解释其思考过程以提高透明度。这两个模型基于核心 Gemini 系列模型构建,通过不同数据集微调以专精于各自角色。结合使用时,它们增强了机器人在更长任务和更多样环境中的泛化能力。Gemini Robotics-ER 1.5 是首个针对具身推理优化的思考模型,在学术和内部基准测试中达到先进水平。开发者现可通过 Gemini API 在 Google AI Studio 中访问 Gemini Robotics-ER 1.5,而 Gemini Robotics 1.5 目前仅对选定合作伙伴开放。