随着大语言模型日益融入生活,评估其是否反映特定语言社区的细微差别和能力变得至关重要。例如,菲律宾人是全球最活跃的 ChatGPT 用户之一,在 ChatGPT 流量中排名第四,但尽管使用频繁,我们仍缺乏对大语言模型在菲律宾语言(如他加禄语和宿务语)上表现的清晰理解。现有证据大多是轶事性的,例如 ChatGPT 用菲律宾语回复的截图作为其流利的证明。相反,我们需要的是对菲律宾语言中大语言模型能力的系统评估。因此,我们开发了 FilBench:一个全面的评估套件,用于评估大语言模型在他加禄语、菲律宾语(他加禄语的标准化形式)和宿务语上的流利度、语言和翻译能力,以及特定文化知识。我们用它评估了 20 多个先进大语言模型在 FilBench 上的表现,提供了对其在菲律宾语言上性能的全面评估。FilBench 评估套件包含四大类别——文化知识、经典 NLP、阅读理解和生成——分为 12 项任务。例如,经典 NLP 类别包括情感分析等任务,而生成任务包括翻译的不同方面。为确保这些类别反映 NLP 研究和使用的优先事项和趋势,我们基于对 2006 年至 2024 年初菲律宾语言 NLP 研究的历史调查进行策划。文化知识类别测试语言模型回忆事实和文化特定信息的能力。对于文化知识,我们策划了各种示例,测试大语言模型的区域和事实知识、菲律宾中心价值观以及消歧义能力。经典 NLP 类别涵盖各种信息提取和语言任务,如命名实体识别、情感分析和文本分类,这些传统上由专门的训练模型执行。在此类别中,我们包括来自 CebuaNER、TLUnified-NER 和 Universal NER 的命名实体识别实例,以及 SIB-200 和 BalitaNLP 的子集用于文本分类和情感分析。阅读理解类别评估语言模型理解和解释菲律宾文本的能力,侧重于可读性、理解和自然语言推理等任务。对于此类别,我们包括来自宿务语可读性语料库、Belebele 和 NewsPH NLI 的实例。生成类别将 FilBench 的大部分用于测试大语言模型忠实翻译文本的能力,无论是从英语到菲律宾语还是从宿务语到英语。