Google DeepMind 发布 Genie 3:实时交互的世界模型

2 天前·来源:DeepMind Blog
Google DeepMindGenie 3世界模型AI 模拟实时交互

Google DeepMind 宣布推出 Genie 3,这是一个通用世界模型,能够根据文本提示生成多样化的交互式环境。该模型以每秒 24 帧的速度实时生成动态世界,并在 720p 分辨率下保持数分钟的一致性。Genie 3 在实时交互性和一致性方面相比前代模型有显著提升,支持探索自然现象、生态系统和幻想场景。

Google DeepMind 宣布推出 Genie 3,这是一个通用世界模型,能够根据文本提示生成多样化的交互式环境。该模型以每秒 24 帧的速度实时生成动态世界,并在 720p 分辨率下保持数分钟的一致性。

Genie 3 是 Google DeepMind 在模拟环境研究方面的最新进展,旨在通过 AI 系统模拟世界,使智能体能够预测环境演变和行动影响。该模型在实时交互性和一致性方面相比前代模型 Genie 2 有显著提升,支持探索自然现象、生态系统和幻想场景。

实现 Genie 3 的高可控性和实时交互性需要重大技术突破。在自回归生成每帧时,模型必须考虑随时间增长的先前生成轨迹,例如用户在一分钟后重新访问位置时,模型需参考一分钟前的相关信息。这一计算必须在每秒多次响应新用户输入,以保持实时交互。

尽管自回归生成环境比生成整个视频更具技术挑战,因为不准确性会随时间累积,但 Genie 3 环境在很大程度上保持了一致性。

背景阅读

世界模型是 AI 领域的关键研究方向,旨在通过模拟环境来训练智能体,预测环境变化和行动后果。Google DeepMind 在这一领域已有超过十年的研究历史,从训练智能体掌握实时策略游戏到开发开放式学习和机器人学的模拟环境。Genie 系列模型是这一研究的延续,Genie 1 和 Genie 2 作为基础世界模型,能够为智能体生成新环境。同时,Google DeepMind 在视频生成方面也取得进展,如 Veo 2 和 Veo 3 模型展示了直观物理的深刻理解。世界模型被认为是通往通用人工智能(AGI)的重要步骤,因为它们允许在丰富的模拟环境中进行无限课程训练。Genie 3 的发布标志着在实时交互和一致性方面的技术突破,为 AI 驱动的虚拟世界创建提供了新工具。

评论 (0)

登录后参与评论

加载评论中...