Google DeepMind 宣布推出 Genie 3,这是一个通用世界模型,能够根据文本提示生成多样化的交互式环境。该模型以每秒 24 帧的速度实时生成动态世界,并在 720p 分辨率下保持数分钟的一致性。
Genie 3 是 Google DeepMind 在模拟环境研究方面的最新进展,旨在通过 AI 系统模拟世界,使智能体能够预测环境演变和行动影响。该模型在实时交互性和一致性方面相比前代模型 Genie 2 有显著提升,支持探索自然现象、生态系统和幻想场景。
实现 Genie 3 的高可控性和实时交互性需要重大技术突破。在自回归生成每帧时,模型必须考虑随时间增长的先前生成轨迹,例如用户在一分钟后重新访问位置时,模型需参考一分钟前的相关信息。这一计算必须在每秒多次响应新用户输入,以保持实时交互。
尽管自回归生成环境比生成整个视频更具技术挑战,因为不准确性会随时间累积,但 Genie 3 环境在很大程度上保持了一致性。