NeoBeta - AI 科技资讯

Google DeepMind 发布了 Gemini Robotics 1.5 系列模型，旨在将 AI 智能体引入物理世界，使机器人能够感知、规划、思考、使用工具并执行复杂多步骤任务。该系列包括两个模型：Gemini Robotics-ER 1.5 和 Gemini Robotics 1.5，它们在一个智能体框架中协同工作。Gemini Robotics-ER 1.5 作为高级大脑，负责协调机器人活动，具备空间理解、自然语言交互和工具调用能力，如使用 Google 搜索获取信息。它向 Gemini Robotics 1.5 提供自然语言指令，后者利用视觉和语言理解直接执行具体动作，并能解释其思考过程以提高透明度。这两个模型基于核心 Gemini 系列模型构建，通过不同数据集微调以专精于各自角色。结合使用时，它们增强了机器人在更长任务和更多样环境中的泛化能力。Gemini Robotics-ER 1.5 是首个针对具身推理优化的思考模型，在学术和内部基准测试中达到先进水平。开发者现可通过 Gemini API 在 Google AI Studio 中访问 Gemini Robotics-ER 1.5，而 Gemini Robotics 1.5 目前仅对选定合作伙伴开放。

背景阅读

Gemini Robotics 1.5 是 Google DeepMind 在 AI 机器人领域的最新进展，延续了 Gemini 系列模型的多模态能力。Gemini 模型自推出以来，已在文本、图像和代码生成方面展示出强大性能，而 Gemini Robotics 系列则将这些能力扩展到物理世界，专注于具身 AI 和机器人技术。具身 AI 涉及让 AI 系统通过传感器和执行器与环境交互，解决现实世界任务，如物体操作和导航。此前，机器人通常依赖预编程规则或有限感知，难以处理复杂、多步骤的开放环境任务。Gemini Robotics 1.5 通过结合高级推理和低级动作执行，旨在克服这些限制，推动通用机器人发展。该技术基于深度学习、计算机视觉和自然语言处理，是 AI 从虚拟助手向物理代理演进的关键一步，可能应用于家庭服务、工业自动化和医疗辅助等领域。

Gemini Robotics 1.5 将 AI 智能体引入物理世界

背景阅读

相关阅读

DeepMind 发布 SIMA 2：能推理学习的 3D 虚拟世界 AI 智能体

谷歌发布Gemini 3模型，支持开发者构建AI应用

Google DeepMind 发布 Genie 3：实时交互的世界模型

评论 (0)