英伟达本周宣布了其Vera Rubin GPU,CEO黄仁勋在CES主题演讲中强调了该芯片的性能指标。据黄仁勋介绍,Rubin GPU的NVFP4推理性能为50 PFLOPs,训练性能为35 PFLOPs,分别是Blackwell的5倍和3.5倍。但该芯片预计要到2026年下半年才会上市。
英伟达当前的GPU架构是Blackwell,于2024年发布作为Hopper的继任者。公司强调其产品工程路径包括从现有架构中榨取尽可能多的性能。英伟达加速计算产品总监Dave Salvator表示,公司继续为Blackwell架构优化推理和训练堆栈。
英伟达在宣布Vera Rubin的同时,发布了新的研究显示Blackwell性能有所提升。在短短三个月内,英伟达通过一系列创新将Blackwell GPU的推理性能提升了高达2.8倍。这些性能提升来自对英伟达TensorRT-LLM推理引擎的优化,适用于现有硬件,允许当前的Blackwell部署在不改变硬件的情况下实现更高吞吐量。
性能提升是在DeepSeek-R1模型上测量的,这是一个6710亿参数的混合专家模型,每令牌激活370亿参数。技术优化包括程序化依赖启动,扩展实现减少了内核启动延迟,增加了吞吐量;全对全通信,新实现消除了中间缓冲区,减少了内存开销;多令牌预测,每次前向传递生成多个令牌而不是一次一个,提高了各种序列长度的吞吐量;NVFP4格式,一种4位浮点格式,在Blackwell中具有硬件加速,减少了内存带宽需求同时保持模型精度。
这些优化降低了每百万令牌的成本,并允许现有基础设施以更低延迟服务更高请求量。云提供商和企业可以在不立即升级硬件的情况下扩展其AI服务。Blackwell也广泛用作训练最大大型语言模型的基础硬件组件。在这方面,英伟达还报告了Blackwell用于AI训练时的显著提升。自初始发布以来,GB200 NVL72系统在相同硬件上提供了高达1.4倍的训练性能提升,这是在五个月内实现的40%提升,无需任何硬件升级。训练提升来自一系列更新,包括优化的训练配方。