DeepMind 去年推出了 SIMA(可扩展可指导多世界智能体),这是一个能在多种虚拟环境中遵循基本指令的通用 AI。SIMA 是教 AI 在丰富 3D 世界中将语言转化为有意义行动的关键第一步。
今天,DeepMind 推出了 SIMA 2,这是其创建通用且有用的 AI 智能体研究的下一个里程碑。通过集成 Gemini 模型的先进能力,SIMA 正从一个指令跟随者演变为一个互动游戏伴侣。SIMA 2 不仅能在虚拟世界中遵循人类语言指令,现在还能思考其目标、与用户对话,并随时间自我改进。
SIMA 的第一个版本学会了在多样化的商业视频游戏中执行超过 600 种语言跟随技能,如“向左转”、“爬梯子”和“打开地图”。它通过“看”屏幕并使用虚拟键盘和鼠标导航,在这些环境中像人一样操作,而不访问底层游戏机制。
通过将 Gemini 模型嵌入为智能体的核心,SIMA 2 超越了指令跟随。SIMA 2 的新架构集成了 Gemini 的强大推理能力,帮助其理解用户的高级目标,在执行中进行复杂推理,并在游戏中熟练执行面向目标的行动。
DeepMind 使用带语言标签的人类演示视频和 Gemini 生成标签的混合数据训练了 SIMA 2。因此,SIMA 2 现在可以向用户描述其打算做什么,并详细说明其为实现目标所采取的步骤。
在测试中,与智能体互动感觉不像给它命令,而更像与一个能推理当前任务的伴侣合作。通过与现有和新的游戏合作伙伴合作,DeepMind 能够在更广泛的游戏上训练和评估 SIMA 2。
Gemini 的加入还带来了改进的泛化和可靠性。SIMA 2 现在能理解比其前身更复杂和微妙的指令,并且在执行这些指令方面更成功,特别是在它从未训练过的情况或游戏中,如新的维京生存游戏 ASKA 或 MineDojo(流行开放世界沙盒游戏 Minecraft 的研究实现)。
此外,其转移学习概念的能力——例如,将其在一个游戏中对“采矿”的理解应用到另一个游戏中的“收获”——是实现人类认知中那种广泛泛化的基础。由于这种能力,SIMA 2 在广泛任务上的表现显著更接近人类玩家。