Lightricks 开源 AI 视频模型 LTX-2,挑战 Sora 和 Veo

2026/1/13·来源:The Decoder
LightricksLTX-2AI视频生成开源模型音视频同步

以色列公司 Lightricks 开源了 190 亿参数的 AI 视频模型 LTX-2。该模型能从文本提示生成长达 20 秒的同步音视频内容,包括口型同步语音和背景音效。LTX-2 声称比竞争对手模型快 18 倍,并支持高达 4K 分辨率的视频生成。

以色列公司 Lightricks 开源了其 190 亿参数的 AI 视频模型 LTX-2。该模型能从文本描述生成同步的音视频内容,声称比竞争对手更快。根据技术报告,LTX-2 从单个文本提示生成长达 20 秒的视频,带有同步立体声音频,包括口型同步语音、背景声音、拟音效果和与场景匹配的音乐。完整版 LTX-2 支持高达 4K 分辨率和每秒 50 帧。研究人员认为现有视听生成方法存在根本缺陷,许多系统按顺序工作,无法捕捉两种模态的真正联合分布。LTX-2 采用非对称双流 Transformer 架构,总参数 190 亿,视频流占 140 亿参数,音频流占 50 亿参数。两个流使用单独的变分自编码器,支持模态特定的位置编码,并通过双向交叉注意力层连接。对于文本理解,LTX-2 使用 Gemma3-12B 作为多语言编码器,并利用所有解码器层的信息,还使用“思考令牌”来处理复杂提示。基准测试显示,在 Nvidia H100 GPU 上,LTX-2 在 720p 分辨率下每步需要 1.22 秒生成 121 帧,而仅生成视频的 Wan2.2-14B 需要 22.30 秒,使 LTX-2 快 18 倍。Lightricks 将此次发布视为对封闭 API 的批评,认为创作者应在自己的硬件上运行 AI,并与广泛社区共同做出伦理决策,而非外包给有自身利益的公司。

背景阅读

AI 视频生成是人工智能领域的前沿技术,旨在从文本提示自动创建高质量视频内容。近年来,随着深度学习模型的发展,视频生成能力显著提升,但同步音视频生成仍是一个挑战。传统方法通常将视频和音频生成分开处理,导致内容不协调或延迟。OpenAI 的 Sora 和 Google 的 Veo 是当前领先的闭源视频生成模型,它们专注于视频生成,而音频同步功能有限。LTX-2 的创新在于其非对称双流架构,通过联合建模视频和音频,实现更自然的同步效果。开源模型如 LTX-2 的发布,促进了技术透明度和社区协作,与闭源模型形成对比。这反映了 AI 行业在开放性与商业化之间的平衡讨论,同时推动了多模态 AI 技术的发展。

评论 (0)

登录后参与评论

加载评论中...