FilBench 发布:评估大语言模型对菲律宾语言的理解与生成能力

1 天前·来源:Hugging Face Blog
大语言模型菲律宾语言评估套件Hugging Face多语言AI

Hugging Face 研究人员开发了 FilBench 评估套件,用于系统评估大语言模型在菲律宾语言上的表现。该套件包含文化知识、经典 NLP、阅读理解和生成四大类别,共 12 项任务。研究人员已用 FilBench 评估了 20 多个先进大语言模型,相关论文和代码已公开。

随着大语言模型日益融入生活,评估其是否反映特定语言社区的细微差别和能力变得至关重要。例如,菲律宾人是全球最活跃的 ChatGPT 用户之一,在 ChatGPT 流量中排名第四,但尽管使用频繁,我们仍缺乏对大语言模型在菲律宾语言(如他加禄语和宿务语)上表现的清晰理解。现有证据大多是轶事性的,例如 ChatGPT 用菲律宾语回复的截图作为其流利的证明。相反,我们需要的是对菲律宾语言中大语言模型能力的系统评估。因此,我们开发了 FilBench:一个全面的评估套件,用于评估大语言模型在他加禄语、菲律宾语(他加禄语的标准化形式)和宿务语上的流利度、语言和翻译能力,以及特定文化知识。我们用它评估了 20 多个先进大语言模型在 FilBench 上的表现,提供了对其在菲律宾语言上性能的全面评估。FilBench 评估套件包含四大类别——文化知识、经典 NLP、阅读理解和生成——分为 12 项任务。例如,经典 NLP 类别包括情感分析等任务,而生成任务包括翻译的不同方面。为确保这些类别反映 NLP 研究和使用的优先事项和趋势,我们基于对 2006 年至 2024 年初菲律宾语言 NLP 研究的历史调查进行策划。文化知识类别测试语言模型回忆事实和文化特定信息的能力。对于文化知识,我们策划了各种示例,测试大语言模型的区域和事实知识、菲律宾中心价值观以及消歧义能力。经典 NLP 类别涵盖各种信息提取和语言任务,如命名实体识别、情感分析和文本分类,这些传统上由专门的训练模型执行。在此类别中,我们包括来自 CebuaNER、TLUnified-NER 和 Universal NER 的命名实体识别实例,以及 SIB-200 和 BalitaNLP 的子集用于文本分类和情感分析。阅读理解类别评估语言模型理解和解释菲律宾文本的能力,侧重于可读性、理解和自然语言推理等任务。对于此类别,我们包括来自宿务语可读性语料库、Belebele 和 NewsPH NLI 的实例。生成类别将 FilBench 的大部分用于测试大语言模型忠实翻译文本的能力,无论是从英语到菲律宾语还是从宿务语到英语。

背景阅读

大语言模型如 GPT 系列和 Llama 已在全球广泛应用,但其性能评估多集中于英语等主流语言,对低资源语言如菲律宾语系的关注不足。菲律宾语系包括他加禄语(菲律宾语的基础)和宿务语等,拥有数千万使用者。近年来,随着 AI 技术的普及,菲律宾用户对 ChatGPT 等工具的使用激增,凸显了评估模型在这些语言上表现的重要性。此前,相关研究多依赖轶事证据或小规模测试,缺乏系统性基准。FilBench 的推出填补了这一空白,通过涵盖文化知识、经典 NLP 任务、阅读理解和生成等多个维度,为研究人员和开发者提供了标准化的评估工具。这有助于推动多语言 AI 的发展,确保技术更公平地服务于不同语言社区。

评论 (0)

登录后参与评论

加载评论中...