英伟达推出ICMS平台,为智能体AI扩展提供新内存架构

6 天前·来源:AI News
英伟达智能体AI内存架构推理优化AI硬件

随着基础模型参数达万亿级,智能体AI的长期记忆存储成为瓶颈。英伟达在Rubin架构中推出推理上下文内存存储平台。该平台创建专门存储层,提升长上下文工作负载吞吐量达5倍。

智能体AI代表了从无状态聊天机器人向复杂工作流程的显著演进,扩展它需要新的内存架构。随着基础模型参数规模向万亿级扩展,上下文窗口达到数百万个标记,记住历史的计算成本增长速度超过了处理能力。部署这些系统的组织现在面临一个瓶颈,即“长期记忆”的巨大数量压倒了现有的硬件架构。当前的基础设施迫使做出二元选择:将推理上下文存储在稀缺的高带宽GPU内存中,或将其降级到缓慢的通用存储中。前者对于大型上下文来说成本过高;后者产生的延迟使得实时智能体交互不可行。为了解决这种阻碍智能体AI扩展的日益扩大的差距,英伟达在其Rubin架构中推出了推理上下文内存存储平台,提出了一个专门设计用于处理AI内存短暂性和高速特性的新存储层。操作挑战在于基于Transformer模型的具体行为。为了避免为每个新生成的单词重新计算整个对话历史,模型将先前状态存储在KV缓存中。在智能体工作流程中,这个缓存充当跨工具和会话的持久内存,随着序列长度线性增长。这创建了一个独特的数据类别。与财务记录或客户日志不同,KV缓存是派生数据;它对即时性能至关重要,但不需要企业文件系统的严格持久性保证。运行在标准CPU上的通用存储堆栈将能量消耗在元数据管理和复制上,而这些是智能体工作负载不需要的。当前的层次结构,从GPU HBM到共享存储,正变得低效。随着上下文从GPU溢出到系统RAM并最终到共享存储,效率急剧下降。将活动上下文移动到G4层引入了毫秒级延迟,并增加了每个标记的功耗成本,使昂贵的GPU在等待数据时处于空闲状态。对于企业来说,这表现为总拥有成本膨胀,电力浪费在基础设施开销上,而不是主动推理上。行业应对措施涉及在这个层次结构中插入一个专门构建的层。ICMS平台建立了一个“G3.5”层——一个专门为千兆级推理设计的以太网连接闪存层。这种方法将存储直接集成到计算单元中。通过利用英伟达BlueField-4数据处理器,该平台将上下文数据的管理从主机CPU卸载。该系统为每个单元提供PB级的共享容量,通过允许智能体保留大量历史记录而不占用昂贵的HBM,提升了智能体AI的扩展能力。操作效益在吞吐量和能量方面是可量化的。通过将相关上下文保留在这个中间层中——它比标准存储更快,但比HBM更便宜——系统可以在需要之前将内存“预置”回GPU。这减少了GPU解码器的空闲时间,使长上下文工作负载的每秒标记数提升高达5倍。从能量角度来看,影响同样可测量。因为该架构消除了不必要的元数据开销,并将上下文数据保持在更接近GPU的位置,它减少了数据移动,从而降低了每个推理操作的总功耗。

背景阅读

智能体AI是人工智能领域的一个重要发展方向,它指的是能够自主执行复杂任务序列、使用工具、保持长期记忆并与环境交互的AI系统。与传统的单次交互聊天机器人不同,智能体AI需要在多个会话和工具调用中保持状态和上下文,这对其内存架构提出了新的挑战。基于Transformer的模型在处理长序列时,会使用KV缓存来存储先前计算的注意力键值对,以避免重复计算。随着模型参数规模的增长和上下文窗口的扩大,这个KV缓存的大小急剧增加,成为系统性能的瓶颈。传统的存储层次结构,包括GPU的高带宽内存、系统RAM和共享存储,在处理这种高速、短暂且规模巨大的AI内存时效率低下。英伟达作为AI硬件领域的领导者,一直在推动计算架构的创新,以支持AI模型的扩展。其Rubin架构是继Blackwell之后的新一代平台,旨在优化AI推理和训练。ICMS平台的推出,反映了行业对专门化AI存储解决方案的需求,以应对智能体AI等新兴工作负载的挑战。

评论 (0)

登录后参与评论

加载评论中...