NeoBeta - AI 科技资讯

以色列公司 Lightricks 开源了其 190 亿参数的 AI 视频模型 LTX-2。该模型能从文本描述生成同步的音视频内容，声称比竞争对手更快。根据技术报告，LTX-2 从单个文本提示生成长达 20 秒的视频，带有同步立体声音频，包括口型同步语音、背景声音、拟音效果和与场景匹配的音乐。完整版 LTX-2 支持高达 4K 分辨率和每秒 50 帧。研究人员认为现有视听生成方法存在根本缺陷，许多系统按顺序工作，无法捕捉两种模态的真正联合分布。LTX-2 采用非对称双流 Transformer 架构，总参数 190 亿，视频流占 140 亿参数，音频流占 50 亿参数。两个流使用单独的变分自编码器，支持模态特定的位置编码，并通过双向交叉注意力层连接。对于文本理解，LTX-2 使用 Gemma3-12B 作为多语言编码器，并利用所有解码器层的信息，还使用“思考令牌”来处理复杂提示。基准测试显示，在 Nvidia H100 GPU 上，LTX-2 在 720p 分辨率下每步需要 1.22 秒生成 121 帧，而仅生成视频的 Wan2.2-14B 需要 22.30 秒，使 LTX-2 快 18 倍。Lightricks 将此次发布视为对封闭 API 的批评，认为创作者应在自己的硬件上运行 AI，并与广泛社区共同做出伦理决策，而非外包给有自身利益的公司。

背景阅读

AI 视频生成是人工智能领域的前沿技术，旨在从文本提示自动创建高质量视频内容。近年来，随着深度学习模型的发展，视频生成能力显著提升，但同步音视频生成仍是一个挑战。传统方法通常将视频和音频生成分开处理，导致内容不协调或延迟。OpenAI 的 Sora 和 Google 的 Veo 是当前领先的闭源视频生成模型，它们专注于视频生成，而音频同步功能有限。LTX-2 的创新在于其非对称双流架构，通过联合建模视频和音频，实现更自然的同步效果。开源模型如 LTX-2 的发布，促进了技术透明度和社区协作，与闭源模型形成对比。这反映了 AI 行业在开放性与商业化之间的平衡讨论，同时推动了多模态 AI 技术的发展。

Lightricks 开源 AI 视频模型 LTX-2，挑战 Sora 和 Veo

背景阅读

相关阅读

马来西亚和印尼因CSAM丑闻率先封禁Grok

中国研究人员诊断AI图像模型失语症，开发自愈框架

AI语音生成公司ElevenLabs年化收入突破3.3亿美元

评论 (0)