智能体AI代表了从无状态聊天机器人向复杂工作流程的显著演进,扩展它需要新的内存架构。随着基础模型参数规模向万亿级扩展,上下文窗口达到数百万个标记,记住历史的计算成本增长速度超过了处理能力。部署这些系统的组织现在面临一个瓶颈,即“长期记忆”的巨大数量压倒了现有的硬件架构。当前的基础设施迫使做出二元选择:将推理上下文存储在稀缺的高带宽GPU内存中,或将其降级到缓慢的通用存储中。前者对于大型上下文来说成本过高;后者产生的延迟使得实时智能体交互不可行。为了解决这种阻碍智能体AI扩展的日益扩大的差距,英伟达在其Rubin架构中推出了推理上下文内存存储平台,提出了一个专门设计用于处理AI内存短暂性和高速特性的新存储层。操作挑战在于基于Transformer模型的具体行为。为了避免为每个新生成的单词重新计算整个对话历史,模型将先前状态存储在KV缓存中。在智能体工作流程中,这个缓存充当跨工具和会话的持久内存,随着序列长度线性增长。这创建了一个独特的数据类别。与财务记录或客户日志不同,KV缓存是派生数据;它对即时性能至关重要,但不需要企业文件系统的严格持久性保证。运行在标准CPU上的通用存储堆栈将能量消耗在元数据管理和复制上,而这些是智能体工作负载不需要的。当前的层次结构,从GPU HBM到共享存储,正变得低效。随着上下文从GPU溢出到系统RAM并最终到共享存储,效率急剧下降。将活动上下文移动到G4层引入了毫秒级延迟,并增加了每个标记的功耗成本,使昂贵的GPU在等待数据时处于空闲状态。对于企业来说,这表现为总拥有成本膨胀,电力浪费在基础设施开销上,而不是主动推理上。行业应对措施涉及在这个层次结构中插入一个专门构建的层。ICMS平台建立了一个“G3.5”层——一个专门为千兆级推理设计的以太网连接闪存层。这种方法将存储直接集成到计算单元中。通过利用英伟达BlueField-4数据处理器,该平台将上下文数据的管理从主机CPU卸载。该系统为每个单元提供PB级的共享容量,通过允许智能体保留大量历史记录而不占用昂贵的HBM,提升了智能体AI的扩展能力。操作效益在吞吐量和能量方面是可量化的。通过将相关上下文保留在这个中间层中——它比标准存储更快,但比HBM更便宜——系统可以在需要之前将内存“预置”回GPU。这减少了GPU解码器的空闲时间,使长上下文工作负载的每秒标记数提升高达5倍。从能量角度来看,影响同样可测量。因为该架构消除了不必要的元数据开销,并将上下文数据保持在更接近GPU的位置,它减少了数据移动,从而降低了每个推理操作的总功耗。