英伟达Vera Rubin GPU将于2026年下半年发布,Blackwell架构性能持续提升

2026/1/13·来源:VentureBeat
英伟达GPUAI硬件BlackwellVera Rubin

英伟达CEO黄仁勋在CES主题演讲中宣布,Vera Rubin GPU的推理和训练性能分别是Blackwell的5倍和3.5倍,但该芯片预计2026年下半年才上市。英伟达通过TensorRT-LLM引擎的优化,在三个月内将Blackwell GPU的推理性能提升了2.8倍。这些优化包括程序化依赖启动、全对全通信、多令牌预测和NVFP4格式,降低了每百万令牌的成本并提高了吞吐量。

英伟达本周宣布了其Vera Rubin GPU,CEO黄仁勋在CES主题演讲中强调了该芯片的性能指标。据黄仁勋介绍,Rubin GPU的NVFP4推理性能为50 PFLOPs,训练性能为35 PFLOPs,分别是Blackwell的5倍和3.5倍。但该芯片预计要到2026年下半年才会上市。

英伟达当前的GPU架构是Blackwell,于2024年发布作为Hopper的继任者。公司强调其产品工程路径包括从现有架构中榨取尽可能多的性能。英伟达加速计算产品总监Dave Salvator表示,公司继续为Blackwell架构优化推理和训练堆栈。

英伟达在宣布Vera Rubin的同时,发布了新的研究显示Blackwell性能有所提升。在短短三个月内,英伟达通过一系列创新将Blackwell GPU的推理性能提升了高达2.8倍。这些性能提升来自对英伟达TensorRT-LLM推理引擎的优化,适用于现有硬件,允许当前的Blackwell部署在不改变硬件的情况下实现更高吞吐量。

性能提升是在DeepSeek-R1模型上测量的,这是一个6710亿参数的混合专家模型,每令牌激活370亿参数。技术优化包括程序化依赖启动,扩展实现减少了内核启动延迟,增加了吞吐量;全对全通信,新实现消除了中间缓冲区,减少了内存开销;多令牌预测,每次前向传递生成多个令牌而不是一次一个,提高了各种序列长度的吞吐量;NVFP4格式,一种4位浮点格式,在Blackwell中具有硬件加速,减少了内存带宽需求同时保持模型精度。

这些优化降低了每百万令牌的成本,并允许现有基础设施以更低延迟服务更高请求量。云提供商和企业可以在不立即升级硬件的情况下扩展其AI服务。Blackwell也广泛用作训练最大大型语言模型的基础硬件组件。在这方面,英伟达还报告了Blackwell用于AI训练时的显著提升。自初始发布以来,GB200 NVL72系统在相同硬件上提供了高达1.4倍的训练性能提升,这是在五个月内实现的40%提升,无需任何硬件升级。训练提升来自一系列更新,包括优化的训练配方。

背景阅读

英伟达是全球领先的GPU制造商,其产品在AI训练和推理领域占据主导地位。Blackwell架构于2024年发布,是Hopper架构的继任者,专为大规模AI计算设计,支持高精度计算和高效能。TensorRT-LLM是英伟达的推理引擎,用于优化大型语言模型的部署性能。混合专家模型是一种AI架构,通过激活部分参数来提高效率,常用于大规模模型如DeepSeek-R1。NVFP4是英伟达的4位浮点格式,旨在减少内存使用同时保持精度,适用于Blackwell等硬件。这些技术发展反映了AI硬件和软件协同优化的趋势,以应对不断增长的模型规模和计算需求。

评论 (0)

登录后参与评论

加载评论中...