Databricks推出Instructed Retriever,企业元数据提升检索性能70%

2026/1/13·来源:VentureBeat
DatabricksRAGAI检索企业AI元数据

Databricks发布了Instructed Retriever新架构,专为复杂企业问答任务设计。该架构通过整合用户指令和元数据,改进传统RAG检索流程。在指令密集型任务中,性能提升高达70%。

Databricks本周发布了Instructed Retriever研究,这是一种新架构,据称在复杂、指令密集的企业问答任务中,相比传统RAG提升性能高达70%。核心差异在于系统如何理解和利用元数据。Databricks研究总监Michael Bendersky表示,许多大型语言模型时代前的检索系统是为人类而非AI代理设计的,代理错误常源于无法首先检索到正确数据。传统RAG检索器的核心问题在于处理系统级规范,如用户指令完整上下文、元数据模式和成功检索示例。在典型RAG流程中,用户查询被转换为嵌入,从向量数据库检索相似文档,结果输入语言模型生成,但系统可能只包含基本过滤,将每个查询视为孤立文本匹配。这在实际企业数据中失效,因为企业文档常包含丰富元数据,如时间戳、作者信息、产品评分、文档类型和领域特定属性。当用户问题需要基于这些元数据字段推理时,传统RAG难以应对。例如,用户查询“显示过去六个月的五星产品评论,但排除品牌X”,传统RAG无法可靠地将自然语言约束转换为适当数据库过滤器和结构化查询。Bendersky指出,传统RAG系统无法利用元数据中封装的数据信号,这些信号需传递给代理以正确检索。随着企业从简单文档搜索转向代理工作流,问题更突出,人类可手动重新制定查询和应用过滤器,而自主操作的AI代理需要检索系统本身理解和执行复杂多面指令。Databricks的方法从根本上重新设计检索流程,系统在检索和生成的每个阶段传播完整系统规范,包括用户指令、标记示例和索引模式。架构增加三个关键能力:查询分解将复杂多部分请求分解为包含多个关键词搜索和过滤指令的搜索计划;结构化查询生成将自然语言指令转换为数据库可执行查询;上下文感知检索确保检索结果与整体任务上下文对齐。Instructed Retriever通过将系统规范集成到检索过程中,使AI代理能更有效处理企业数据复杂查询,提升问答准确性。

背景阅读

检索增强生成(RAG)是AI领域的一种关键技术,结合信息检索和大型语言模型(LLM),用于提高问答系统的准确性和相关性。传统RAG流程通常包括检索相关文档和基于上下文生成答案,但在处理企业级复杂查询时面临挑战,尤其是涉及元数据和结构化数据的场景。企业数据常包含丰富元数据,如时间戳、作者、评分等,传统RAG难以有效利用这些信息进行精确检索。随着AI代理工作流的发展,对检索系统提出了更高要求,需要能理解和执行复杂指令。Databricks作为数据和分析平台公司,一直致力于AI和机器学习工具开发,此次Instructed Retriever的发布旨在解决企业数据检索中的瓶颈,通过整合元数据和系统规范,优化RAG性能,为AI应用提供更强大的数据支持。

评论 (0)

登录后参与评论

加载评论中...