WEKA提出令牌仓储方案突破AI内存墙

4 天前·来源:VentureBeat
AI基础设施GPU内存Transformer模型状态化AI推理优化

随着AI代理从实验转向生产,GPU内存不足成为关键瓶颈,导致KV缓存溢出和性能下降。WEKA CTO指出,长上下文序列可能消耗40GB内存,引发高达40%的冗余计算开销。公司提出令牌仓储方法,旨在解决内存限制,支持状态化AI系统。

随着AI代理从实验转向实际生产工作负载,一个安静但严重的基础设施问题逐渐凸显:内存。在底层,当今的GPU没有足够空间来存储现代长运行AI代理依赖的键值缓存,这导致大量隐形浪费,包括GPU重复工作、云成本上升和性能受损。这个问题已在生产环境中出现。

在最近的VentureBeat AI Impact Series活动中,WEKA CTO Shimon Ben-David与VentureBeat CEO Matt Marshall讨论了行业新兴的“内存墙”,以及它为何成为扩展真正状态化AI系统的最大障碍。对话不仅诊断了问题,还通过WEKA称为令牌仓储的方法,提出了全新的内存处理思路。

Ben-David表示,推理基础设施的挑战主要在于GPU内存问题。问题的根源在于Transformer模型的工作原理:它们依赖KV缓存来存储对话中每个令牌的上下文信息。上下文窗口越长,缓存消耗的内存越多,增长迅速。一个10万令牌序列可能消耗约40GB GPU内存。即使最先进的GPU也只有约288GB高带宽内存,且该空间还需容纳模型本身。

在实际的多租户推理环境中,这很快变得棘手。例如,代码开发或税务处理等工作负载严重依赖KV缓存来维持上下文。Ben-David指出,加载三到四个10万令牌PDF文件就会耗尽HBM上的KV缓存容量,这就是内存墙。推理环境被迫丢弃数据,导致GPU不断丢弃稍后需要的上下文,阻碍代理保持状态和长期对话。

Ben-David称,推理环境中GPU经常重新计算已完成的任务。系统预填充KV缓存,开始解码,然后空间不足并驱逐早期数据。当再次需要该上下文时,整个过程重复进行。大规模下,这造成巨大浪费,包括能源浪费、延迟增加和用户体验下降,同时利润率受压。

GPU重新计算浪费直接体现在财务报表上,组织可能因冗余预填充周期承受近40%的开销。这正在推理市场产生连锁反应。Ben-David提到,像Anthropic和OpenAI这样的大型模型提供商正在指导用户构建提示,以增加命中存储其KV缓存的同一GPU的可能性,从而跳过预填充阶段并立即开始解码,高效生成更多令牌。但这仍未解决GPU内存容量极度有限的基础设施问题。

Ben-David强调,如何跨越内存墙是现代化、成本效益推理的关键。WEKA提出令牌仓储方法,旨在解决内存限制,支持状态化AI系统。

背景阅读

Transformer模型是当前AI领域的核心技术,广泛应用于自然语言处理和生成式AI任务。这些模型依赖键值缓存来存储和处理长序列的上下文信息,以实现连贯的对话和任务执行。随着AI代理从实验阶段转向实际生产应用,对长上下文支持的需求日益增长,导致GPU内存成为关键瓶颈。GPU的高带宽内存有限,通常用于存储模型权重和KV缓存,当上下文窗口扩展时,缓存需求急剧增加,可能超过可用内存,引发性能下降和成本上升。这一问题被称为“内存墙”,已成为AI基础设施中的重大挑战。行业正在探索多种解决方案,如优化缓存管理、开发新内存架构或采用分布式方法,以支持状态化AI系统,这些系统能够长期记忆和构建上下文,提升用户体验和效率。WEKA的令牌仓储方案是其中一种创新尝试,旨在通过更高效的内存管理来突破这一限制。

评论 (0)

登录后参与评论

加载评论中...