Hugging Face 推出检索评估新标准 RTEB

1 天前·来源:Hugging Face Blog
Hugging FaceRTEB检索评估嵌入模型AI基准

Hugging Face 发布了检索嵌入基准 RTEB 的测试版,旨在可靠评估嵌入模型的检索准确性。RTEB 采用开放和私有数据集的混合策略,以解决现有基准在衡量模型泛化能力方面的不足。该基准专注于为现实应用提供公平、透明的评估标准。

Hugging Face 推出了检索嵌入基准 RTEB 的测试版,这是一个新基准,旨在可靠评估嵌入模型在现实应用中的检索准确性。现有基准在衡量真实泛化能力方面存在困难,而 RTEB 通过开放和私有数据集的混合策略来解决这一问题。其目标是创建一个公平、透明且以应用为中心的标准,用于衡量模型在未见数据上的表现。许多 AI 应用的性能,从 RAG 和智能体到推荐系统,根本上受限于搜索和检索的质量。因此,准确测量嵌入模型的检索质量是开发者的常见痛点。当前评估标准通常依赖于模型在公共基准上的“零样本”性能,但这最多只能近似模型的真实泛化能力。当模型反复针对相同公共数据集进行评估时,其报告分数与在新未见数据上的实际性能之间会出现差距。为了解决这些挑战,Hugging Face 开发了 RTEB,这是一个旨在为评估检索模型提供可靠标准的基准。现有基准的完整性常因泛化差距问题而受损,当训练数据源与评估数据集重叠时,模型的分数可能被夸大,从而削弱基准的完整性。这导致模型被奖励记忆测试数据,而非发展稳健、可泛化的能力。此外,许多基准与开发者当前构建的企业用例不匹配,它们常依赖学术数据集或源自问答数据集的检索任务,这些可能无法捕捉现实检索场景中的分布偏差和复杂性。RTEB 的目标是创建一个新的、可靠的高质量基准,以测量嵌入模型的真实检索准确性。为了对抗基准过拟合,RTEB 实施了使用开放和私有数据集的混合策略。

背景阅读

检索嵌入基准是评估 AI 模型中嵌入向量质量的关键工具,尤其在检索增强生成(RAG)和推荐系统等应用中至关重要。嵌入模型将文本或其他数据转换为向量表示,用于相似性搜索和检索任务。传统基准如 MTEB 和 BEIR 广泛用于评估嵌入模型,但面临泛化能力不足和与现实应用脱节的问题。泛化差距指模型在训练数据与测试数据重叠时性能被高估,导致在未见数据上表现不佳。近年来,随着 AI 应用对检索准确性要求提高,行业需要更可靠的评估标准。Hugging Face 作为开源 AI 社区的重要平台,此前已推出多个基准和工具,RTEB 的推出旨在填补现有基准的不足,推动嵌入模型技术的发展。

评论 (0)

登录后参与评论

加载评论中...