2025 年标志着 PC 端 AI 发展的突破之年。PC 级小型语言模型(SLMs)的准确性较 2024 年提升了近 2 倍,大幅缩小了与前沿云端大型语言模型(LLMs)的差距。AI PC 开发者工具如 Ollama、ComfyUI、llama.cpp 和 Unsloth 已经成熟,其受欢迎程度同比增长了一倍,PC 级模型的下载用户数从 2024 年起增长了十倍。这些发展为生成式 AI 在今年获得日常 PC 创作者、游戏玩家和生产力用户的广泛采用铺平了道路。
在本周的 CES 上,NVIDIA 宣布了一系列针对 GeForce RTX、NVIDIA RTX PRO 和 NVIDIA DGX Spark 设备的 AI 升级,为开发者在 PC 上部署生成式 AI 解锁了所需的性能和内存。这些升级包括:通过 PyTorch-CUDA 优化和 ComfyUI 中原生 NVFP4/FP8 精度支持,视频和图像生成 AI 性能提升高达 3 倍,VRAM 减少 60%;ComfyUI 中集成 RTX Video Super Resolution,加速 4K 视频生成;Lightricks 的先进 LTX-2 音频视频生成模型开源版本获得 NVIDIA NVFP8 优化;一个新的视频生成管道,使用 Blender 中的 3D 场景生成 4K AI 视频,以精确控制输出;通过 Ollama 和 llama.cpp,SLMs 的推理性能提升高达 35%;Nexa.ai 的 Hyperlink 新视频搜索功能获得 RTX 加速。这些进步将使用户能够在本地 RTX AI PC 提供的隐私、安全和低延迟下,无缝运行先进的视频、图像和语言 AI 工作流程。
生成式 AI 可以制作惊人的视频,但仅通过提示在线工具可能难以控制。尝试生成 4K 视频几乎不可能,因为大多数模型太大,无法适应 PC VRAM。今天,NVIDIA 推出了一个由 RTX 驱动的视频生成管道,使艺术家能够精确控制生成内容,同时将视频生成速度提高 3 倍,并将其升级到 4K,仅使用一小部分 VRAM。这个视频管道允许新兴艺术家创建故事板,将其转换为逼真的关键帧,然后将这些关键帧转换为高质量的 4K 视频。管道分为三个蓝图,艺术家可以根据需要混合匹配或修改:一个 3D 对象生成器,为场景创建资产;一个 3D 引导的图像生成器,允许用户在 Blender 中设置场景并从中生成逼真的关键帧;一个视频生成器,遵循用户的起始和结束关键帧来动画化视频,并使用 NVIDIA RTX Video 技术将其升级到 4K。
这个管道得益于 Lightricks 新 LTX-2 模型的突破性发布,该模型今天可供下载。作为本地 AI 视频创作的一个重要里程碑,LTX-2 提供的结果与领先的云端模型相媲美,同时生成长达 20 秒的 4K 视频,具有令人印象深刻的视觉保真度。该模型内置音频、多关键帧支持和先进的条件能力,通过可控性低秩适配增强,为创作者提供电影级质量和控制,无需依赖云端。在底层,管道由 ComfyUI 驱动。过去几个月,NVIDIA 与 ComfyUI 密切合作,在 NVIDIA GPU 上优化了 40% 的性能,最新更新增加了对 NVFP4 和 NVFP8 数据格式的支持。综合来看,使用 RTX 50 系列的 NVFP4 格式,性能提高 3 倍,VRAM 减少 60%;使用 NVFP8,性能提高 2 倍,VRAM 减少 40%。NVFP4 和 NVFP8 检查点现在可直接在 ComfyUI 中用于一些顶级模型。