NeoBeta - AI 科技资讯

DeepMind 去年推出了 SIMA（可扩展可指导多世界智能体），这是一个能在多种虚拟环境中遵循基本指令的通用 AI。SIMA 是教 AI 在丰富 3D 世界中将语言转化为有意义行动的关键第一步。

今天，DeepMind 推出了 SIMA 2，这是其创建通用且有用的 AI 智能体研究的下一个里程碑。通过集成 Gemini 模型的先进能力，SIMA 正从一个指令跟随者演变为一个互动游戏伴侣。SIMA 2 不仅能在虚拟世界中遵循人类语言指令，现在还能思考其目标、与用户对话，并随时间自我改进。

SIMA 的第一个版本学会了在多样化的商业视频游戏中执行超过 600 种语言跟随技能，如“向左转”、“爬梯子”和“打开地图”。它通过“看”屏幕并使用虚拟键盘和鼠标导航，在这些环境中像人一样操作，而不访问底层游戏机制。

通过将 Gemini 模型嵌入为智能体的核心，SIMA 2 超越了指令跟随。SIMA 2 的新架构集成了 Gemini 的强大推理能力，帮助其理解用户的高级目标，在执行中进行复杂推理，并在游戏中熟练执行面向目标的行动。

DeepMind 使用带语言标签的人类演示视频和 Gemini 生成标签的混合数据训练了 SIMA 2。因此，SIMA 2 现在可以向用户描述其打算做什么，并详细说明其为实现目标所采取的步骤。

在测试中，与智能体互动感觉不像给它命令，而更像与一个能推理当前任务的伴侣合作。通过与现有和新的游戏合作伙伴合作，DeepMind 能够在更广泛的游戏上训练和评估 SIMA 2。

Gemini 的加入还带来了改进的泛化和可靠性。SIMA 2 现在能理解比其前身更复杂和微妙的指令，并且在执行这些指令方面更成功，特别是在它从未训练过的情况或游戏中，如新的维京生存游戏 ASKA 或 MineDojo（流行开放世界沙盒游戏 Minecraft 的研究实现）。

此外，其转移学习概念的能力——例如，将其在一个游戏中对“采矿”的理解应用到另一个游戏中的“收获”——是实现人类认知中那种广泛泛化的基础。由于这种能力，SIMA 2 在广泛任务上的表现显著更接近人类玩家。

背景阅读

SIMA 2 是 DeepMind 在 AI 智能体领域的最新进展，专注于在 3D 虚拟环境中实现语言到行动的转换。这一研究属于具身 AI（Embodied AI）范畴，旨在让 AI 系统通过感知、推理和行动与物理或虚拟世界互动。DeepMind 的 Gemini 模型是一个多模态 AI 系统，具备强大的语言理解和推理能力，被集成到 SIMA 2 中以提升其智能水平。历史上，AI 智能体研究从简单的游戏 AI（如 Atari 游戏玩家）发展到更复杂的任务，如 OpenAI 的 Dota 2 智能体或 DeepMind 的 AlphaStar（星际争霸 II）。SIMA 2 的推出标志着 AI 在通用性和交互性方面的进步，可能为未来机器人、虚拟助手和游戏 AI 提供基础技术。行业现状显示，多家公司如 OpenAI、Anthropic 和 Google 都在开发更先进的 AI 模型和智能体，以推动 AGI（人工通用智能）的发展。

DeepMind 发布 SIMA 2：能推理学习的 3D 虚拟世界 AI 智能体

背景阅读

相关阅读

DeepMind 发布 Gemma Scope 2：开源工具套件助力 AI 安全研究

Google DeepMind 在新加坡设立新研究实验室以推进亚太 AI 发展

谷歌发布Gemini 3模型，支持开发者构建AI应用

评论 (0)