Gemini Robotics 1.5 将 AI 智能体引入物理世界

2 天前·来源:DeepMind Blog
Google DeepMindGemini RoboticsAI 机器人具身 AI

Google DeepMind 发布了 Gemini Robotics 1.5 系列模型,旨在推动智能通用机器人发展。该系列包括 Gemini Robotics-ER 1.5 和 Gemini Robotics 1.5 两个模型,通过协作处理复杂多步骤任务。开发者现可通过 Gemini API 在 Google AI Studio 中访问 Gemini Robotics-ER 1.5。

Google DeepMind 发布了 Gemini Robotics 1.5 系列模型,旨在将 AI 智能体引入物理世界,使机器人能够感知、规划、思考、使用工具并执行复杂多步骤任务。该系列包括两个模型:Gemini Robotics-ER 1.5 和 Gemini Robotics 1.5,它们在一个智能体框架中协同工作。Gemini Robotics-ER 1.5 作为高级大脑,负责协调机器人活动,具备空间理解、自然语言交互和工具调用能力,如使用 Google 搜索获取信息。它向 Gemini Robotics 1.5 提供自然语言指令,后者利用视觉和语言理解直接执行具体动作,并能解释其思考过程以提高透明度。这两个模型基于核心 Gemini 系列模型构建,通过不同数据集微调以专精于各自角色。结合使用时,它们增强了机器人在更长任务和更多样环境中的泛化能力。Gemini Robotics-ER 1.5 是首个针对具身推理优化的思考模型,在学术和内部基准测试中达到先进水平。开发者现可通过 Gemini API 在 Google AI Studio 中访问 Gemini Robotics-ER 1.5,而 Gemini Robotics 1.5 目前仅对选定合作伙伴开放。

背景阅读

Gemini Robotics 1.5 是 Google DeepMind 在 AI 机器人领域的最新进展,延续了 Gemini 系列模型的多模态能力。Gemini 模型自推出以来,已在文本、图像和代码生成方面展示出强大性能,而 Gemini Robotics 系列则将这些能力扩展到物理世界,专注于具身 AI 和机器人技术。具身 AI 涉及让 AI 系统通过传感器和执行器与环境交互,解决现实世界任务,如物体操作和导航。此前,机器人通常依赖预编程规则或有限感知,难以处理复杂、多步骤的开放环境任务。Gemini Robotics 1.5 通过结合高级推理和低级动作执行,旨在克服这些限制,推动通用机器人发展。该技术基于深度学习、计算机视觉和自然语言处理,是 AI 从虚拟助手向物理代理演进的关键一步,可能应用于家庭服务、工业自动化和医疗辅助等领域。

评论 (0)

登录后参与评论

加载评论中...