Hugging Face 推出了检索嵌入基准 RTEB 的测试版,这是一个新基准,旨在可靠评估嵌入模型在现实应用中的检索准确性。现有基准在衡量真实泛化能力方面存在困难,而 RTEB 通过开放和私有数据集的混合策略来解决这一问题。其目标是创建一个公平、透明且以应用为中心的标准,用于衡量模型在未见数据上的表现。许多 AI 应用的性能,从 RAG 和智能体到推荐系统,根本上受限于搜索和检索的质量。因此,准确测量嵌入模型的检索质量是开发者的常见痛点。当前评估标准通常依赖于模型在公共基准上的“零样本”性能,但这最多只能近似模型的真实泛化能力。当模型反复针对相同公共数据集进行评估时,其报告分数与在新未见数据上的实际性能之间会出现差距。为了解决这些挑战,Hugging Face 开发了 RTEB,这是一个旨在为评估检索模型提供可靠标准的基准。现有基准的完整性常因泛化差距问题而受损,当训练数据源与评估数据集重叠时,模型的分数可能被夸大,从而削弱基准的完整性。这导致模型被奖励记忆测试数据,而非发展稳健、可泛化的能力。此外,许多基准与开发者当前构建的企业用例不匹配,它们常依赖学术数据集或源自问答数据集的检索任务,这些可能无法捕捉现实检索场景中的分布偏差和复杂性。RTEB 的目标是创建一个新的、可靠的高质量基准,以测量嵌入模型的真实检索准确性。为了对抗基准过拟合,RTEB 实施了使用开放和私有数据集的混合策略。