当企业大语言模型检索产品名称、技术规格或标准合同条款时,它使用专为复杂推理设计的昂贵GPU计算来访问静态信息。这种情况每天发生数百万次,每次查询都会浪费计算周期并增加基础设施成本。
DeepSeek新发布的条件记忆研究直接解决了这一架构限制。这项工作引入了Engram模块,将静态模式检索与动态推理分离。该研究由DeepSeek创始人梁文锋共同撰写。
通过系统实验,DeepSeek找到了计算与内存之间的最佳平衡,将稀疏模型容量的75%分配给动态推理,25%分配给静态查询。这种内存系统对推理能力的提升超过对知识检索的改进。
复杂推理基准测试准确率从70%提升至74%,而以知识为重点的测试从57%提升至61%。这些改进来自包括Big-Bench Hard、ARC-Challenge和MMLU在内的测试。
这项研究发布之际,企业正面临部署更强大AI系统的压力,同时需要应对GPU内存限制和基础设施成本。DeepSeek的方法通过从根本上重新思考模型应如何构建,提供了一条潜在的前进路径。
条件记忆解决的是与代理记忆和RAG不同的问题。代理记忆系统专注于情景记忆,存储过去的对话记录、用户偏好和交互历史。这些系统帮助代理跨会话保持上下文并从经验中学习,但它们位于模型前向传播之外,不优化模型内部处理静态语言模式的方式。
对于开发Hindsight的Vectorize创始人兼首席执行官Chris Latimer来说,Engram中使用的条件记忆方法解决的是与代理AI记忆不同的问题。Latimer表示,它不解决将代理连接到外部记忆如对话历史和知识存储的问题,更倾向于从小型模型中挤出性能,并从稀缺的GPU资源中获得更多价值。
条件记忆解决了一个基本问题:Transformer缺乏原生知识查找原语。在处理文本时,它们必须通过跨多个层的昂贵神经计算来模拟静态模式的检索。这些模式包括命名实体、技术术语和常见短语。
DeepSeek论文用一个具体例子说明了这一点。识别“威尔士王妃戴安娜”需要消耗多层注意力和前馈网络来逐步组合特征。模型基本上使用深度动态逻辑电路来执行本应是简单哈希表查找的操作。研究人员写道,问题在于Transformer缺乏“原生知识查找”能力。