Google DeepMind 推出 FACTS 基准套件,系统评估大语言模型事实准确性

2 天前·来源:DeepMind Blog
Google DeepMindFACTS 基准大语言模型事实准确性Kaggle

Google DeepMind 与 Kaggle 合作发布了 FACTS 基准套件,用于系统评估大语言模型的事实准确性。该套件包含四个基准测试,涵盖参数化、搜索和多模态等场景,共 3,513 个示例。FACTS 评分基于公开和私有测试集的平均准确率计算,Kaggle 将管理基准测试并维护公开排行榜。

Google DeepMind 与 Kaggle 合作推出了 FACTS 基准套件,旨在系统评估大语言模型的事实准确性。该套件扩展了之前的 FACTS 基础基准,新增了三个基准测试,包括参数化基准、搜索基准和多模态基准。参数化基准评估模型在不借助外部工具的情况下回答事实性问题的能力,包含 2,104 个问题。搜索基准评估模型使用网络搜索工具回答问题的能力,包含 1,884 个提示。多模态基准评估模型基于图像问题生成准确文本的能力。FACTS 基准套件共包含 3,513 个示例,其中公开集和私有集分别用于计算平均准确率,形成 FACTS 评分。Kaggle 将负责管理基准套件,包括维护私有集、测试领先模型并在公开排行榜上展示结果。技术报告提供了更多关于评估方法的细节。

背景阅读

大语言模型在信息传递中的应用日益广泛,但其回答的事实准确性成为行业挑战。此前,Google DeepMind 开发了 FACTS 基础基准,用于评估模型基于给定上下文提供答案的能力。随着模型能力的扩展,需要更全面的评估工具来覆盖不同使用场景。FACTS 基准套件应运而生,它通过多个基准测试系统性地衡量模型在参数化知识、网络搜索和多模态交互中的事实准确性。这一工具旨在帮助研究者和开发者识别模型弱点,推动模型改进,并促进行业标准化评估。类似基准如 TruthfulQA 和 MMLU 也关注模型事实性,但 FACTS 套件更侧重于多场景集成评估。

评论 (0)

登录后参与评论

加载评论中...