NeoBeta - AI 科技资讯

LLM API账单每月增长30%，但流量增速未匹配。分析查询日志发现，用户以不同方式提问相同问题，如“退货政策是什么？”和“如何退货？”，这些查询分别触发LLM调用，生成几乎相同的响应，每次产生完整API成本。精确匹配缓存作为初步解决方案，仅捕获18%冗余调用，语义相似但措辞不同的查询完全绕过缓存。因此，基于查询含义而非措辞实施语义缓存。实施后，缓存命中率增至67%，LLM API成本降低73%，但需解决简单实现忽略的问题。传统缓存使用查询文本作为缓存键，适用于查询完全相同的情况。然而，用户提问方式不同。分析10万个生产查询发现，仅18%是先前查询的精确重复，47%在语义上与先前查询相似（意图相同，措辞不同），35%是真正新颖的查询。那47%代表错失的巨大成本节省机会，每个语义相似查询触发完整LLM调用，生成与已计算响应几乎相同的输出。语义缓存用基于嵌入的相似性查找替换基于文本的键。关键见解是：不哈希查询文本，而是将查询嵌入向量空间，并在相似性阈值内查找缓存查询。相似性阈值是关键参数。设置过高会错过有效缓存命中，设置过低会返回错误响应。初始阈值0.85看似合理，但导致错误缓存命中，如“如何取消订阅？”与“如何取消订单？”相似度为0.87，但意图不同。通过A/B测试调整阈值至0.92，平衡准确性与覆盖率。语义缓存架构包括嵌入模型、向量存储和响应存储。实施时需处理阈值调整、嵌入模型选择和缓存失效等挑战。

背景阅读

大型语言模型（LLM）如GPT系列和Claude通过API提供服务，广泛应用于客服、内容生成和问答系统。随着应用规模扩大，API调用成本成为企业重要支出。传统缓存技术如精确匹配缓存基于查询文本哈希，但用户自然语言查询的多样性导致其效率低下，仅能处理完全相同的查询。语义缓存利用自然语言处理（NLP）技术，特别是词嵌入和向量相似性，将查询转换为向量表示，通过计算余弦相似度或欧氏距离来识别语义相似查询。这项技术基于预训练模型如BERT或GPT的嵌入能力，能理解查询的深层含义而非表面文本。在AI领域，优化LLM部署成本是热门研究方向，涉及模型压缩、推理加速和缓存策略。语义缓存作为成本优化手段，正被OpenAI、Google和Anthropic等公司探索，以提升服务效率并降低运营开销。行业趋势显示，随着LLM应用普及，高效缓存机制将成为AI基础设施的关键组件。

语义缓存技术可将LLM API成本降低73%

背景阅读

相关阅读

谷歌推出AI收件箱视图，预览Gmail未来功能

Sakana AI 通过模型「猎杀」实现趋同进化

法国兴业银行弃用自研AI工具，转向微软Copilot

评论 (0)