cuda
技术7 篇资讯2026年1月20日
英特尔发布AutoRound:面向大语言模型和视觉语言模型的先进量化工具
英特尔推出了AutoRound,这是一种专为大语言模型和视觉语言模型设计的后训练量化方法。该工具通过有符号梯度下降优化权重舍入和裁剪范围,支持INT2至INT8的低比特量化,在保持高精度的同时减少模型大小和推理延迟。AutoRound兼容多种模型架构和设备,并提供快速量化能力,例如在A100 GPU上量化72B模型仅需37分钟。
Hugging Face 推出高速 Whisper 转录推理端点
Hugging Face 今天发布了基于 OpenAI Whisper 模型的新推理端点。该端点利用 vLLM 项目优化,在 NVIDIA GPU 上实现高达 8 倍的性能提升。用户可通过一键部署,以经济高效的方式使用专用转录模型。
2026年1月17日
英伟达DGX Spark与DGX Station在CES展示本地运行前沿AI模型能力
英伟达在CES展会上展示了DGX Spark和DGX Station两款桌面AI超级计算机。这些系统基于Grace Blackwell架构,支持在本地运行从千亿到万亿参数的大型AI模型。DGX Station搭载GB300超级芯片,可运行包括Qwen3、DeepSeek-V3.2在内的多种前沿模型。
NVIDIA RTX 加速 PC 端 4K AI 视频生成,LTX-2 与 ComfyUI 升级
NVIDIA 在 CES 上宣布了针对 GeForce RTX 设备的 AI 升级,包括 ComfyUI 集成 RTX Video Super Resolution 以加速 4K 视频生成。LTX-2 音频视频生成模型的开源版本获得 NVFP8 优化,支持本地生成 20 秒 4K 视频。通过 PyTorch-CUDA 优化和 NVFP4/NVFP8 精度支持,视频和图像生成 AI 性能提升高达 3 倍,VRAM 减少 60%。