英伟达利用仿真技术提升AI芯片HPC性能以对抗AMD

1 天前·来源:The Register
英伟达AMD高性能计算FP64仿真AI芯片

英伟达在Rubin GPU中采用仿真技术提升双精度浮点计算性能,以增强高性能计算和科学计算应用。该技术通过CUDA库实现,可将FP64矩阵性能提升至200 teraFLOPS,是Blackwell加速器的4.4倍。AMD研究人员认为仿真技术在某些基准测试中表现良好,但在实际物理科学模拟中效果尚不明确,仍需进一步研究。

英伟达在对抗AMD的竞争中,依靠仿真技术从AI芯片中挤出更多高性能计算性能。双精度浮点计算是现代飞机飞行、火箭发射、疫苗有效性和核武器运作的关键,但英伟达没有构建专用硬件芯片来处理这种数据类型,而是利用仿真技术来提升HPC和科学计算应用的性能,这是AMD在最近几代产品中领先的领域。英伟达新发布的Rubin GPU仍提供约33 teraFLOPS的峰值FP64性能,比四年前的H100少一teraFLOP。如果启用英伟达CUDA库中的软件仿真,芯片据称可实现高达200 teraFLOPS的FP64矩阵性能,是其即将退出的Blackwell加速器硬件性能的4.4倍。在纸面上,Rubin不仅是英伟达有史以来最强大的AI加速器,也是多年来最强大的科学计算GPU。英伟达超级计算产品高级总监Dan Ernst表示,通过与合作伙伴和内部调查的许多研究,他们发现仿真获得的精度至少与硬件张量核心相当。仿真FP64并非英伟达独有,有潜力显著提高现代GPU的吞吐量和效率。但并非所有人都信服。AMD研究员Nicholas Malaya认为,仿真FP64在某些基准测试中表现良好,但在实际物理科学模拟中效果尚不明确,虽然值得进一步研究和实验,但尚未完全成熟。在AI时代,FP64仍然重要,因为它是科学计算的黄金标准,具有无与伦比的动态范围,能表达超过18.44 quintillion个唯一值。相比之下,现代AI模型如DeepSeek R1通常在FP8下训练,只能表达256个唯一值。利用神经网络的普遍同质性,块浮点数据类型如MXFP8或MXFP4可用于扩展动态范围。这对于定义大型语言模型的模糊数学来说没问题,但不能替代FP64,尤其是在生死攸关的情况下。与高度容错的AI工作负载不同,HPC模拟依赖于质量和能量守恒等基本物理原理。Malaya指出,一旦开始产生误差,这些有限误差会传播,并导致爆炸等问题。使用低精度数据类型仿真FP64的想法并不新鲜。Ernst表示,仿真技术历史悠久,早在20世纪50年代中期硬件浮点单元出现之前就有仿真。这个过程需要更多操作来完成,并经常导致性能损失,但在硬件缺乏专用浮点单元时实现了浮点数学。到20世纪80年代,FPU变得普遍,仿真的需求基本消失。然而,在2024年初,东京和芝浦理工学院的研究人员提出了一种新方法,使用整数运算来仿真FP64,这引起了英伟达等公司的兴趣。

背景阅读

双精度浮点计算是高性能计算和科学模拟中的关键技术,用于处理需要高精度的复杂物理和数学问题,如气候建模、核物理和航空航天工程。随着AI技术的发展,低精度计算如FP8和FP4在训练大型语言模型时变得流行,因为它们能提高效率并减少计算资源需求。然而,科学计算领域仍依赖FP64以确保结果的准确性和可靠性。英伟达和AMD作为GPU市场的两大巨头,一直在高性能计算领域竞争,英伟达通过其CUDA平台和Tensor Core技术主导AI市场,而AMD在传统FP64性能上具有优势。仿真技术的引入旨在弥合这一差距,利用软件优化提升硬件性能,但这也引发了关于精度和实际应用效果的讨论。

评论 (0)

登录后参与评论

加载评论中...