随着AI代理从实验转向实际生产工作负载,一个安静但严重的基础设施问题逐渐凸显:内存。在底层,当今的GPU没有足够空间来存储现代长运行AI代理依赖的键值缓存,这导致大量隐形浪费,包括GPU重复工作、云成本上升和性能受损。这个问题已在生产环境中出现。
在最近的VentureBeat AI Impact Series活动中,WEKA CTO Shimon Ben-David与VentureBeat CEO Matt Marshall讨论了行业新兴的“内存墙”,以及它为何成为扩展真正状态化AI系统的最大障碍。对话不仅诊断了问题,还通过WEKA称为令牌仓储的方法,提出了全新的内存处理思路。
Ben-David表示,推理基础设施的挑战主要在于GPU内存问题。问题的根源在于Transformer模型的工作原理:它们依赖KV缓存来存储对话中每个令牌的上下文信息。上下文窗口越长,缓存消耗的内存越多,增长迅速。一个10万令牌序列可能消耗约40GB GPU内存。即使最先进的GPU也只有约288GB高带宽内存,且该空间还需容纳模型本身。
在实际的多租户推理环境中,这很快变得棘手。例如,代码开发或税务处理等工作负载严重依赖KV缓存来维持上下文。Ben-David指出,加载三到四个10万令牌PDF文件就会耗尽HBM上的KV缓存容量,这就是内存墙。推理环境被迫丢弃数据,导致GPU不断丢弃稍后需要的上下文,阻碍代理保持状态和长期对话。
Ben-David称,推理环境中GPU经常重新计算已完成的任务。系统预填充KV缓存,开始解码,然后空间不足并驱逐早期数据。当再次需要该上下文时,整个过程重复进行。大规模下,这造成巨大浪费,包括能源浪费、延迟增加和用户体验下降,同时利润率受压。
GPU重新计算浪费直接体现在财务报表上,组织可能因冗余预填充周期承受近40%的开销。这正在推理市场产生连锁反应。Ben-David提到,像Anthropic和OpenAI这样的大型模型提供商正在指导用户构建提示,以增加命中存储其KV缓存的同一GPU的可能性,从而跳过预填充阶段并立即开始解码,高效生成更多令牌。但这仍未解决GPU内存容量极度有限的基础设施问题。
Ben-David强调,如何跨越内存墙是现代化、成本效益推理的关键。WEKA提出令牌仓储方法,旨在解决内存限制,支持状态化AI系统。