NeoBeta - AI 科技资讯

英伟达在拉斯维加斯的消费电子展上意外发布了新的Vera Rubin架构。该平台预计今年晚些时候交付客户，相比Blackwell架构，推理成本降低10倍，训练特定模型所需GPU数量减少4倍。Rubin GPU在基于Transformer的推理工作负载上提供50 petaFLOPS的4位计算性能，而Blackwell为10 petaFLOPS。Rubin平台包含六款新芯片：Vera CPU、Rubin GPU和四款不同的网络芯片。英伟达网络高级副总裁Gilad Shainer表示，组件必须协同工作以实现性能优势，这被称为极端协同设计。AI工作负载，包括训练和推理，同时在大量GPU上运行。推理正变得分布式，不仅限于单个机架，而是跨机架。为适应这些高度分布式的任务，尽可能多的GPU需要有效协作。英伟达通过NVLink网络芯片处理机架内GPU的连接，新系列包括NVLink6交换机，带宽是上一版本的两倍，GPU到GPU连接速度为3,600 GB/s，而NVLink5为1,800 GB/s。此外，机架内网络芯片的SerDes数量翻倍，并扩展了网络内可执行的计算操作。Shainer指出，机架内网络实际上是计算基础设施，部分计算操作在网络交换机上完成。将操作从GPU卸载到网络有两个原因：一是允许某些任务只执行一次，而不是每个GPU都执行，例如AI训练中的all-reduce操作；二是通过在数据传输途中进行计算来隐藏GPU间数据传输时间。

背景阅读

英伟达是AI硬件领域的领导者，其GPU架构如Blackwell和Rubin是AI模型训练和推理的核心。随着AI模型规模扩大，分布式计算需求增加，网络协同设计变得至关重要。NVLink技术自2014年推出以来，不断演进以提升GPU间通信效率，支持大规模AI集群。Rubin架构的发布反映了AI硬件向更集成化、网络优化的方向发展，旨在降低成本和提升性能。

英伟达发布Rubin架构，强调网络协同设计以提升AI性能

背景阅读

相关阅读

OpenAI 要求承包商上传过往真实工作内容以训练AI

超大规模AI数据中心：2026年十大突破技术

评论 (0)