DeepSeek提出条件记忆机制,解决LLM静态查询的GPU资源浪费问题

6 天前·来源:VentureBeat
DeepSeek条件记忆LLM优化GPU效率Transformer架构

DeepSeek发布条件记忆研究,解决大语言模型静态信息检索的GPU计算浪费问题。该研究引入Engram模块,将静态模式检索与动态推理分离。实验显示,在复杂推理基准测试中准确率从70%提升至74%。

当企业大语言模型检索产品名称、技术规格或标准合同条款时,它使用专为复杂推理设计的昂贵GPU计算来访问静态信息。这种情况每天发生数百万次,每次查询都会浪费计算周期并增加基础设施成本。

DeepSeek新发布的条件记忆研究直接解决了这一架构限制。这项工作引入了Engram模块,将静态模式检索与动态推理分离。该研究由DeepSeek创始人梁文锋共同撰写。

通过系统实验,DeepSeek找到了计算与内存之间的最佳平衡,将稀疏模型容量的75%分配给动态推理,25%分配给静态查询。这种内存系统对推理能力的提升超过对知识检索的改进。

复杂推理基准测试准确率从70%提升至74%,而以知识为重点的测试从57%提升至61%。这些改进来自包括Big-Bench Hard、ARC-Challenge和MMLU在内的测试。

这项研究发布之际,企业正面临部署更强大AI系统的压力,同时需要应对GPU内存限制和基础设施成本。DeepSeek的方法通过从根本上重新思考模型应如何构建,提供了一条潜在的前进路径。

条件记忆解决的是与代理记忆和RAG不同的问题。代理记忆系统专注于情景记忆,存储过去的对话记录、用户偏好和交互历史。这些系统帮助代理跨会话保持上下文并从经验中学习,但它们位于模型前向传播之外,不优化模型内部处理静态语言模式的方式。

对于开发Hindsight的Vectorize创始人兼首席执行官Chris Latimer来说,Engram中使用的条件记忆方法解决的是与代理AI记忆不同的问题。Latimer表示,它不解决将代理连接到外部记忆如对话历史和知识存储的问题,更倾向于从小型模型中挤出性能,并从稀缺的GPU资源中获得更多价值。

条件记忆解决了一个基本问题:Transformer缺乏原生知识查找原语。在处理文本时,它们必须通过跨多个层的昂贵神经计算来模拟静态模式的检索。这些模式包括命名实体、技术术语和常见短语。

DeepSeek论文用一个具体例子说明了这一点。识别“威尔士王妃戴安娜”需要消耗多层注意力和前馈网络来逐步组合特征。模型基本上使用深度动态逻辑电路来执行本应是简单哈希表查找的操作。研究人员写道,问题在于Transformer缺乏“原生知识查找”能力。

背景阅读

大语言模型在处理查询时,无论是复杂推理任务还是简单的事实检索,都会调用相同的计算资源。这种架构设计导致在处理静态信息(如产品名称、技术术语、标准条款)时,模型仍需进行复杂的神经网络计算,造成GPU资源的低效使用。随着企业AI部署规模的扩大,这种资源浪费问题日益凸显,直接影响运营成本和系统效率。 传统上,AI社区通过检索增强生成(RAG)和外部知识库来解决模型知识更新和事实准确性问题,但这些方法主要关注如何为模型提供外部信息源,而非优化模型内部对静态知识的处理机制。代理记忆系统则专注于存储和利用交互历史,帮助AI助手保持对话连贯性。 DeepSeek的条件记忆研究从模型架构层面提出新思路,试图在Transformer框架内区分动态推理和静态检索这两种不同的认知任务。这种区分基于对神经网络中“记忆”功能的重新思考——哪些信息处理需要复杂的推理计算,哪些可以通过更高效的机制完成。该研究反映了当前AI领域的一个重要趋势:在追求模型规模扩大的同时,也开始关注计算效率和架构优化,特别是在GPU资源紧张、推理成本高昂的现实背景下。

评论 (0)

登录后参与评论

加载评论中...