英伟达在拉斯维加斯的消费电子展上意外发布了新的Vera Rubin架构。该平台预计今年晚些时候交付客户,相比Blackwell架构,推理成本降低10倍,训练特定模型所需GPU数量减少4倍。Rubin GPU在基于Transformer的推理工作负载上提供50 petaFLOPS的4位计算性能,而Blackwell为10 petaFLOPS。Rubin平台包含六款新芯片:Vera CPU、Rubin GPU和四款不同的网络芯片。英伟达网络高级副总裁Gilad Shainer表示,组件必须协同工作以实现性能优势,这被称为极端协同设计。AI工作负载,包括训练和推理,同时在大量GPU上运行。推理正变得分布式,不仅限于单个机架,而是跨机架。为适应这些高度分布式的任务,尽可能多的GPU需要有效协作。英伟达通过NVLink网络芯片处理机架内GPU的连接,新系列包括NVLink6交换机,带宽是上一版本的两倍,GPU到GPU连接速度为3,600 GB/s,而NVLink5为1,800 GB/s。此外,机架内网络芯片的SerDes数量翻倍,并扩展了网络内可执行的计算操作。Shainer指出,机架内网络实际上是计算基础设施,部分计算操作在网络交换机上完成。将操作从GPU卸载到网络有两个原因:一是允许某些任务只执行一次,而不是每个GPU都执行,例如AI训练中的all-reduce操作;二是通过在数据传输途中进行计算来隐藏GPU间数据传输时间。