NeoBeta - AI 科技资讯

随着AI代理从实验转向实际生产工作负载，一个安静但严重的基础设施问题逐渐凸显：内存。在底层，当今的GPU没有足够空间来存储现代长运行AI代理依赖的键值缓存，这导致大量隐形浪费，包括GPU重复工作、云成本上升和性能受损。这个问题已在生产环境中出现。

在最近的VentureBeat AI Impact Series活动中，WEKA CTO Shimon Ben-David与VentureBeat CEO Matt Marshall讨论了行业新兴的“内存墙”，以及它为何成为扩展真正状态化AI系统的最大障碍。对话不仅诊断了问题，还通过WEKA称为令牌仓储的方法，提出了全新的内存处理思路。

Ben-David表示，推理基础设施的挑战主要在于GPU内存问题。问题的根源在于Transformer模型的工作原理：它们依赖KV缓存来存储对话中每个令牌的上下文信息。上下文窗口越长，缓存消耗的内存越多，增长迅速。一个10万令牌序列可能消耗约40GB GPU内存。即使最先进的GPU也只有约288GB高带宽内存，且该空间还需容纳模型本身。

在实际的多租户推理环境中，这很快变得棘手。例如，代码开发或税务处理等工作负载严重依赖KV缓存来维持上下文。Ben-David指出，加载三到四个10万令牌PDF文件就会耗尽HBM上的KV缓存容量，这就是内存墙。推理环境被迫丢弃数据，导致GPU不断丢弃稍后需要的上下文，阻碍代理保持状态和长期对话。

Ben-David称，推理环境中GPU经常重新计算已完成的任务。系统预填充KV缓存，开始解码，然后空间不足并驱逐早期数据。当再次需要该上下文时，整个过程重复进行。大规模下，这造成巨大浪费，包括能源浪费、延迟增加和用户体验下降，同时利润率受压。

GPU重新计算浪费直接体现在财务报表上，组织可能因冗余预填充周期承受近40%的开销。这正在推理市场产生连锁反应。Ben-David提到，像Anthropic和OpenAI这样的大型模型提供商正在指导用户构建提示，以增加命中存储其KV缓存的同一GPU的可能性，从而跳过预填充阶段并立即开始解码，高效生成更多令牌。但这仍未解决GPU内存容量极度有限的基础设施问题。

Ben-David强调，如何跨越内存墙是现代化、成本效益推理的关键。WEKA提出令牌仓储方法，旨在解决内存限制，支持状态化AI系统。

背景阅读

Transformer模型是当前AI领域的核心技术，广泛应用于自然语言处理和生成式AI任务。这些模型依赖键值缓存来存储和处理长序列的上下文信息，以实现连贯的对话和任务执行。随着AI代理从实验阶段转向实际生产应用，对长上下文支持的需求日益增长，导致GPU内存成为关键瓶颈。GPU的高带宽内存有限，通常用于存储模型权重和KV缓存，当上下文窗口扩展时，缓存需求急剧增加，可能超过可用内存，引发性能下降和成本上升。这一问题被称为“内存墙”，已成为AI基础设施中的重大挑战。行业正在探索多种解决方案，如优化缓存管理、开发新内存架构或采用分布式方法，以支持状态化AI系统，这些系统能够长期记忆和构建上下文，提升用户体验和效率。WEKA的令牌仓储方案是其中一种创新尝试，旨在通过更高效的内存管理来突破这一限制。

WEKA提出令牌仓储方案突破AI内存墙

背景阅读

相关阅读

超半数AI项目因基础设施复杂而搁浅

微软谷歌大力招聘能源专家应对AI电力瓶颈

英伟达开源KVzap：一种近乎无损的KV缓存剪枝方法

评论 (0)