NeoBeta - AI 科技资讯

英伟达本周宣布了其Vera Rubin GPU，CEO黄仁勋在CES主题演讲中强调了该芯片的性能指标。据黄仁勋介绍，Rubin GPU的NVFP4推理性能为50 PFLOPs，训练性能为35 PFLOPs，分别是Blackwell的5倍和3.5倍。但该芯片预计要到2026年下半年才会上市。

英伟达当前的GPU架构是Blackwell，于2024年发布作为Hopper的继任者。公司强调其产品工程路径包括从现有架构中榨取尽可能多的性能。英伟达加速计算产品总监Dave Salvator表示，公司继续为Blackwell架构优化推理和训练堆栈。

英伟达在宣布Vera Rubin的同时，发布了新的研究显示Blackwell性能有所提升。在短短三个月内，英伟达通过一系列创新将Blackwell GPU的推理性能提升了高达2.8倍。这些性能提升来自对英伟达TensorRT-LLM推理引擎的优化，适用于现有硬件，允许当前的Blackwell部署在不改变硬件的情况下实现更高吞吐量。

性能提升是在DeepSeek-R1模型上测量的，这是一个6710亿参数的混合专家模型，每令牌激活370亿参数。技术优化包括程序化依赖启动，扩展实现减少了内核启动延迟，增加了吞吐量；全对全通信，新实现消除了中间缓冲区，减少了内存开销；多令牌预测，每次前向传递生成多个令牌而不是一次一个，提高了各种序列长度的吞吐量；NVFP4格式，一种4位浮点格式，在Blackwell中具有硬件加速，减少了内存带宽需求同时保持模型精度。

这些优化降低了每百万令牌的成本，并允许现有基础设施以更低延迟服务更高请求量。云提供商和企业可以在不立即升级硬件的情况下扩展其AI服务。Blackwell也广泛用作训练最大大型语言模型的基础硬件组件。在这方面，英伟达还报告了Blackwell用于AI训练时的显著提升。自初始发布以来，GB200 NVL72系统在相同硬件上提供了高达1.4倍的训练性能提升，这是在五个月内实现的40%提升，无需任何硬件升级。训练提升来自一系列更新，包括优化的训练配方。

背景阅读

英伟达是全球领先的GPU制造商，其产品在AI训练和推理领域占据主导地位。Blackwell架构于2024年发布，是Hopper架构的继任者，专为大规模AI计算设计，支持高精度计算和高效能。TensorRT-LLM是英伟达的推理引擎，用于优化大型语言模型的部署性能。混合专家模型是一种AI架构，通过激活部分参数来提高效率，常用于大规模模型如DeepSeek-R1。NVFP4是英伟达的4位浮点格式，旨在减少内存使用同时保持精度，适用于Blackwell等硬件。这些技术发展反映了AI硬件和软件协同优化的趋势，以应对不断增长的模型规模和计算需求。

英伟达Vera Rubin GPU将于2026年下半年发布，Blackwell架构性能持续提升

背景阅读

相关阅读

英伟达发布Rubin架构，强调网络协同设计以提升AI性能

物理AI正进军汽车领域，英伟达等芯片商引领趋势

英伟达发布多智能体智能仓库与零售目录增强AI蓝图

评论 (0)