英伟达发布Rubin架构,强调网络协同设计以提升AI性能

2026/1/13·来源:IEEE Spectrum
英伟达Rubin架构AI硬件网络协同设计NVLink

英伟达在CES上意外发布了Vera Rubin架构,预计今年晚些时候交付客户。该架构相比Blackwell架构,推理成本降低10倍,训练特定模型所需GPU数量减少4倍。Rubin平台包含六款新芯片,包括GPU、CPU和四款网络芯片,通过协同设计实现性能优势。

英伟达在拉斯维加斯的消费电子展上意外发布了新的Vera Rubin架构。该平台预计今年晚些时候交付客户,相比Blackwell架构,推理成本降低10倍,训练特定模型所需GPU数量减少4倍。Rubin GPU在基于Transformer的推理工作负载上提供50 petaFLOPS的4位计算性能,而Blackwell为10 petaFLOPS。Rubin平台包含六款新芯片:Vera CPU、Rubin GPU和四款不同的网络芯片。英伟达网络高级副总裁Gilad Shainer表示,组件必须协同工作以实现性能优势,这被称为极端协同设计。AI工作负载,包括训练和推理,同时在大量GPU上运行。推理正变得分布式,不仅限于单个机架,而是跨机架。为适应这些高度分布式的任务,尽可能多的GPU需要有效协作。英伟达通过NVLink网络芯片处理机架内GPU的连接,新系列包括NVLink6交换机,带宽是上一版本的两倍,GPU到GPU连接速度为3,600 GB/s,而NVLink5为1,800 GB/s。此外,机架内网络芯片的SerDes数量翻倍,并扩展了网络内可执行的计算操作。Shainer指出,机架内网络实际上是计算基础设施,部分计算操作在网络交换机上完成。将操作从GPU卸载到网络有两个原因:一是允许某些任务只执行一次,而不是每个GPU都执行,例如AI训练中的all-reduce操作;二是通过在数据传输途中进行计算来隐藏GPU间数据传输时间。

背景阅读

英伟达是AI硬件领域的领导者,其GPU架构如Blackwell和Rubin是AI模型训练和推理的核心。随着AI模型规模扩大,分布式计算需求增加,网络协同设计变得至关重要。NVLink技术自2014年推出以来,不断演进以提升GPU间通信效率,支持大规模AI集群。Rubin架构的发布反映了AI硬件向更集成化、网络优化的方向发展,旨在降低成本和提升性能。

评论 (0)

登录后参与评论

加载评论中...