NVIDIA RTX 加速 PC 端 4K AI 视频生成,LTX-2 与 ComfyUI 升级

3 天前·来源:NVIDIA AI Blog
NVIDIAAI视频生成RTXLTX-2ComfyUI

NVIDIA 在 CES 上宣布了针对 GeForce RTX 设备的 AI 升级,包括 ComfyUI 集成 RTX Video Super Resolution 以加速 4K 视频生成。LTX-2 音频视频生成模型的开源版本获得 NVFP8 优化,支持本地生成 20 秒 4K 视频。通过 PyTorch-CUDA 优化和 NVFP4/NVFP8 精度支持,视频和图像生成 AI 性能提升高达 3 倍,VRAM 减少 60%。

2025 年标志着 PC 端 AI 发展的突破之年。PC 级小型语言模型(SLMs)的准确性较 2024 年提升了近 2 倍,大幅缩小了与前沿云端大型语言模型(LLMs)的差距。AI PC 开发者工具如 Ollama、ComfyUI、llama.cpp 和 Unsloth 已经成熟,其受欢迎程度同比增长了一倍,PC 级模型的下载用户数从 2024 年起增长了十倍。这些发展为生成式 AI 在今年获得日常 PC 创作者、游戏玩家和生产力用户的广泛采用铺平了道路。

在本周的 CES 上,NVIDIA 宣布了一系列针对 GeForce RTX、NVIDIA RTX PRO 和 NVIDIA DGX Spark 设备的 AI 升级,为开发者在 PC 上部署生成式 AI 解锁了所需的性能和内存。这些升级包括:通过 PyTorch-CUDA 优化和 ComfyUI 中原生 NVFP4/FP8 精度支持,视频和图像生成 AI 性能提升高达 3 倍,VRAM 减少 60%;ComfyUI 中集成 RTX Video Super Resolution,加速 4K 视频生成;Lightricks 的先进 LTX-2 音频视频生成模型开源版本获得 NVIDIA NVFP8 优化;一个新的视频生成管道,使用 Blender 中的 3D 场景生成 4K AI 视频,以精确控制输出;通过 Ollama 和 llama.cpp,SLMs 的推理性能提升高达 35%;Nexa.ai 的 Hyperlink 新视频搜索功能获得 RTX 加速。这些进步将使用户能够在本地 RTX AI PC 提供的隐私、安全和低延迟下,无缝运行先进的视频、图像和语言 AI 工作流程。

生成式 AI 可以制作惊人的视频,但仅通过提示在线工具可能难以控制。尝试生成 4K 视频几乎不可能,因为大多数模型太大,无法适应 PC VRAM。今天,NVIDIA 推出了一个由 RTX 驱动的视频生成管道,使艺术家能够精确控制生成内容,同时将视频生成速度提高 3 倍,并将其升级到 4K,仅使用一小部分 VRAM。这个视频管道允许新兴艺术家创建故事板,将其转换为逼真的关键帧,然后将这些关键帧转换为高质量的 4K 视频。管道分为三个蓝图,艺术家可以根据需要混合匹配或修改:一个 3D 对象生成器,为场景创建资产;一个 3D 引导的图像生成器,允许用户在 Blender 中设置场景并从中生成逼真的关键帧;一个视频生成器,遵循用户的起始和结束关键帧来动画化视频,并使用 NVIDIA RTX Video 技术将其升级到 4K。

这个管道得益于 Lightricks 新 LTX-2 模型的突破性发布,该模型今天可供下载。作为本地 AI 视频创作的一个重要里程碑,LTX-2 提供的结果与领先的云端模型相媲美,同时生成长达 20 秒的 4K 视频,具有令人印象深刻的视觉保真度。该模型内置音频、多关键帧支持和先进的条件能力,通过可控性低秩适配增强,为创作者提供电影级质量和控制,无需依赖云端。在底层,管道由 ComfyUI 驱动。过去几个月,NVIDIA 与 ComfyUI 密切合作,在 NVIDIA GPU 上优化了 40% 的性能,最新更新增加了对 NVFP4 和 NVFP8 数据格式的支持。综合来看,使用 RTX 50 系列的 NVFP4 格式,性能提高 3 倍,VRAM 减少 60%;使用 NVFP8,性能提高 2 倍,VRAM 减少 40%。NVFP4 和 NVFP8 检查点现在可直接在 ComfyUI 中用于一些顶级模型。

背景阅读

生成式 AI 在视频创作领域的应用近年来快速发展,但传统上依赖于云端模型,存在隐私、延迟和成本问题。本地 AI 视频生成技术旨在解决这些挑战,通过优化模型和硬件性能,使 PC 用户能够直接在设备上运行高级 AI 工作流程。NVIDIA 的 RTX 系列 GPU 凭借其 CUDA 架构和专用 AI 加速器,已成为本地 AI 计算的关键平台。ComfyUI 是一个流行的开源工具,用于构建和运行 AI 图像和视频生成工作流,其与 NVIDIA 的合作优化了 GPU 性能。LTX-2 是 Lightricks 开发的最新音频视频生成模型,开源后允许社区本地部署,支持多关键帧和 4K 输出,标志着本地 AI 视频生成能力的显著提升。NVFP4 和 NVFP8 是 NVIDIA 推出的低精度数据格式,旨在减少内存占用并加速推理,特别适用于资源受限的 PC 环境。这些技术的发展推动了 AI 从云端向边缘设备的迁移,为创作者提供了更多控制和灵活性。

相关阅读

Black Forest Labs发布开源AI图像生成模型FLUX.2 [klein],生成时间不到一秒

德国AI初创公司Black Forest Labs发布了开源AI图像生成模型FLUX.2 [klein]。该模型包含40亿和90亿参数两个版本,可在Nvidia GB200上不到一秒内生成图像。4B版本采用Apache 2.0开源许可,企业可免费用于商业用途。

OpenAI 推动其 API 格式成为行业标准

OpenAI 推出名为 Open Responses 的开放接口,旨在统一不同提供商的 AI 模型 API 格式。该项目基于 OpenAI 的 Responses API,允许开发者编写一次代码,即可与任何 AI 模型兼容。目前,Google、Anthropic 和 Meta 的 API 格式各异,导致开发者在切换模型时需重写代码,而 Open Responses 试图通过共享请求、响应、流式传输和工具调用格式来解决这一问题。Vercel、Hugging Face、LM Studio、Ollama 和 vLLM 已加入支持。此举若成功,将使 OpenAI 受益,因为其 API 可能成为默认标准,竞争对手需适应其格式,而现有 OpenAI 客户无需更改代码。OpenAI 通过“开放”标签展示合作精神,尽管未分享超出已公开技术的更多内容。

Google 将 AI 视频制作工具 Flow 扩展至 Workspace 用户

Google 宣布其 AI 视频制作工具 Flow 现已面向 Workspace 商业、企业和教育计划用户开放。Flow 基于 Veo 3.1 模型,可根据文本或图像生成八秒视频片段。该工具还支持音频生成、垂直视频和集成图像生成器 Nano Banana Pro。

评论 (0)

登录后参与评论

加载评论中...