Google DeepMind 与 Kaggle 合作推出了 FACTS 基准套件,旨在系统评估大语言模型的事实准确性。该套件扩展了之前的 FACTS 基础基准,新增了三个基准测试,包括参数化基准、搜索基准和多模态基准。参数化基准评估模型在不借助外部工具的情况下回答事实性问题的能力,包含 2,104 个问题。搜索基准评估模型使用网络搜索工具回答问题的能力,包含 1,884 个提示。多模态基准评估模型基于图像问题生成准确文本的能力。FACTS 基准套件共包含 3,513 个示例,其中公开集和私有集分别用于计算平均准确率,形成 FACTS 评分。Kaggle 将负责管理基准套件,包括维护私有集、测试领先模型并在公开排行榜上展示结果。技术报告提供了更多关于评估方法的细节。