以色列公司 Lightricks 开源了其 190 亿参数的 AI 视频模型 LTX-2。该模型能从文本描述生成同步的音视频内容,声称比竞争对手更快。根据技术报告,LTX-2 从单个文本提示生成长达 20 秒的视频,带有同步立体声音频,包括口型同步语音、背景声音、拟音效果和与场景匹配的音乐。完整版 LTX-2 支持高达 4K 分辨率和每秒 50 帧。研究人员认为现有视听生成方法存在根本缺陷,许多系统按顺序工作,无法捕捉两种模态的真正联合分布。LTX-2 采用非对称双流 Transformer 架构,总参数 190 亿,视频流占 140 亿参数,音频流占 50 亿参数。两个流使用单独的变分自编码器,支持模态特定的位置编码,并通过双向交叉注意力层连接。对于文本理解,LTX-2 使用 Gemma3-12B 作为多语言编码器,并利用所有解码器层的信息,还使用“思考令牌”来处理复杂提示。基准测试显示,在 Nvidia H100 GPU 上,LTX-2 在 720p 分辨率下每步需要 1.22 秒生成 121 帧,而仅生成视频的 Wan2.2-14B 需要 22.30 秒,使 LTX-2 快 18 倍。Lightricks 将此次发布视为对封闭 API 的批评,认为创作者应在自己的硬件上运行 AI,并与广泛社区共同做出伦理决策,而非外包给有自身利益的公司。