cuda

技术7 篇资讯

2026年1月20日

英特尔发布AutoRound：面向大语言模型和视觉语言模型的先进量化工具

英特尔推出了AutoRound，这是一种专为大语言模型和视觉语言模型设计的后训练量化方法。该工具通过有符号梯度下降优化权重舍入和裁剪范围，支持INT2至INT8的低比特量化，在保持高精度的同时减少模型大小和推理延迟。AutoRound兼容多种模型架构和设备，并提供快速量化能力，例如在A100 GPU上量化72B模型仅需37分钟。

Hugging Face 推出高速 Whisper 转录推理端点

Hugging Face 今天发布了基于 OpenAI Whisper 模型的新推理端点。该端点利用 vLLM 项目优化，在 NVIDIA GPU 上实现高达 8 倍的性能提升。用户可通过一键部署，以经济高效的方式使用专用转录模型。

2026年1月19日

英伟达利用仿真技术提升AI芯片HPC性能以对抗AMD

英伟达在Rubin GPU中采用仿真技术提升双精度浮点计算性能，以增强高性能计算和科学计算应用。该技术通过CUDA库实现，可将FP64矩阵性能提升至200 teraFLOPS，是Blackwell加速器的4.4倍。AMD研究人员认为仿真技术在某些基准测试中表现良好，但在实际物理科学模拟中效果尚不明确，仍需进一步研究。

2026年1月18日

全球AI计算格局转变：中国芯片崛起重塑开源与部署

中国在开源AI模型开发方面取得巨大进展，正推动国内AI芯片的快速发展。华为昇腾和寒武纪等芯片已开始为高性能开源模型提供推理支持，部分模型训练也开始使用国产芯片。美国出口管制加速了中国芯片生产，芯片短缺激励了计算效率创新，如DeepSeek的MLA和GRPO技术。

2026年1月17日

英伟达DGX Spark与DGX Station在CES展示本地运行前沿AI模型能力

英伟达在CES展会上展示了DGX Spark和DGX Station两款桌面AI超级计算机。这些系统基于Grace Blackwell架构，支持在本地运行从千亿到万亿参数的大型AI模型。DGX Station搭载GB300超级芯片，可运行包括Qwen3、DeepSeek-V3.2在内的多种前沿模型。

NVIDIA RTX 加速 PC 端 4K AI 视频生成，LTX-2 与 ComfyUI 升级

NVIDIA 在 CES 上宣布了针对 GeForce RTX 设备的 AI 升级，包括 ComfyUI 集成 RTX Video Super Resolution 以加速 4K 视频生成。LTX-2 音频视频生成模型的开源版本获得 NVFP8 优化，支持本地生成 20 秒 4K 视频。通过 PyTorch-CUDA 优化和 NVFP4/NVFP8 精度支持，视频和图像生成 AI 性能提升高达 3 倍，VRAM 减少 60%。

2026年1月13日

AI助手助力伯克利粒子加速器保持稳定运行

劳伦斯伯克利国家实验室部署了名为加速器助手的AI系统，该系统基于大语言模型，用于支持高级光源粒子加速器的实验。加速器助手利用NVIDIA H100 GPU进行加速推理，能自主编写Python代码并解决问题，将实验设置时间减少100倍。该系统为粒子加速器和核设施等复杂科学基础设施提供了应用AI的蓝图。