LLM API账单每月增长30%,但流量增速未匹配。分析查询日志发现,用户以不同方式提问相同问题,如“退货政策是什么?”和“如何退货?”,这些查询分别触发LLM调用,生成几乎相同的响应,每次产生完整API成本。精确匹配缓存作为初步解决方案,仅捕获18%冗余调用,语义相似但措辞不同的查询完全绕过缓存。因此,基于查询含义而非措辞实施语义缓存。实施后,缓存命中率增至67%,LLM API成本降低73%,但需解决简单实现忽略的问题。传统缓存使用查询文本作为缓存键,适用于查询完全相同的情况。然而,用户提问方式不同。分析10万个生产查询发现,仅18%是先前查询的精确重复,47%在语义上与先前查询相似(意图相同,措辞不同),35%是真正新颖的查询。那47%代表错失的巨大成本节省机会,每个语义相似查询触发完整LLM调用,生成与已计算响应几乎相同的输出。语义缓存用基于嵌入的相似性查找替换基于文本的键。关键见解是:不哈希查询文本,而是将查询嵌入向量空间,并在相似性阈值内查找缓存查询。相似性阈值是关键参数。设置过高会错过有效缓存命中,设置过低会返回错误响应。初始阈值0.85看似合理,但导致错误缓存命中,如“如何取消订阅?”与“如何取消订单?”相似度为0.87,但意图不同。通过A/B测试调整阈值至0.92,平衡准确性与覆盖率。语义缓存架构包括嵌入模型、向量存储和响应存储。实施时需处理阈值调整、嵌入模型选择和缓存失效等挑战。