NeoBeta - AI 科技资讯

智能体AI代表了从无状态聊天机器人向复杂工作流程的显著演进，扩展它需要新的内存架构。随着基础模型参数规模向万亿级扩展，上下文窗口达到数百万个标记，记住历史的计算成本增长速度超过了处理能力。部署这些系统的组织现在面临一个瓶颈，即“长期记忆”的巨大数量压倒了现有的硬件架构。当前的基础设施迫使做出二元选择：将推理上下文存储在稀缺的高带宽GPU内存中，或将其降级到缓慢的通用存储中。前者对于大型上下文来说成本过高；后者产生的延迟使得实时智能体交互不可行。为了解决这种阻碍智能体AI扩展的日益扩大的差距，英伟达在其Rubin架构中推出了推理上下文内存存储平台，提出了一个专门设计用于处理AI内存短暂性和高速特性的新存储层。操作挑战在于基于Transformer模型的具体行为。为了避免为每个新生成的单词重新计算整个对话历史，模型将先前状态存储在KV缓存中。在智能体工作流程中，这个缓存充当跨工具和会话的持久内存，随着序列长度线性增长。这创建了一个独特的数据类别。与财务记录或客户日志不同，KV缓存是派生数据；它对即时性能至关重要，但不需要企业文件系统的严格持久性保证。运行在标准CPU上的通用存储堆栈将能量消耗在元数据管理和复制上，而这些是智能体工作负载不需要的。当前的层次结构，从GPU HBM到共享存储，正变得低效。随着上下文从GPU溢出到系统RAM并最终到共享存储，效率急剧下降。将活动上下文移动到G4层引入了毫秒级延迟，并增加了每个标记的功耗成本，使昂贵的GPU在等待数据时处于空闲状态。对于企业来说，这表现为总拥有成本膨胀，电力浪费在基础设施开销上，而不是主动推理上。行业应对措施涉及在这个层次结构中插入一个专门构建的层。ICMS平台建立了一个“G3.5”层——一个专门为千兆级推理设计的以太网连接闪存层。这种方法将存储直接集成到计算单元中。通过利用英伟达BlueField-4数据处理器，该平台将上下文数据的管理从主机CPU卸载。该系统为每个单元提供PB级的共享容量，通过允许智能体保留大量历史记录而不占用昂贵的HBM，提升了智能体AI的扩展能力。操作效益在吞吐量和能量方面是可量化的。通过将相关上下文保留在这个中间层中——它比标准存储更快，但比HBM更便宜——系统可以在需要之前将内存“预置”回GPU。这减少了GPU解码器的空闲时间，使长上下文工作负载的每秒标记数提升高达5倍。从能量角度来看，影响同样可测量。因为该架构消除了不必要的元数据开销，并将上下文数据保持在更接近GPU的位置，它减少了数据移动，从而降低了每个推理操作的总功耗。

英伟达推出ICMS平台，为智能体AI扩展提供新内存架构

背景阅读

相关阅读

中国收紧英伟达H200芯片采购限制，仅限特殊情况

卡特彼勒与英伟达合作，为工程机械带来边缘AI助手

AI芯片初创公司Etched融资5亿美元挑战英伟达

评论 (0)