NeoBeta - AI 科技资讯

随着大语言模型日益融入生活，评估其是否反映特定语言社区的细微差别和能力变得至关重要。例如，菲律宾人是全球最活跃的 ChatGPT 用户之一，在 ChatGPT 流量中排名第四，但尽管使用频繁，我们仍缺乏对大语言模型在菲律宾语言（如他加禄语和宿务语）上表现的清晰理解。现有证据大多是轶事性的，例如 ChatGPT 用菲律宾语回复的截图作为其流利的证明。相反，我们需要的是对菲律宾语言中大语言模型能力的系统评估。因此，我们开发了 FilBench：一个全面的评估套件，用于评估大语言模型在他加禄语、菲律宾语（他加禄语的标准化形式）和宿务语上的流利度、语言和翻译能力，以及特定文化知识。我们用它评估了 20 多个先进大语言模型在 FilBench 上的表现，提供了对其在菲律宾语言上性能的全面评估。FilBench 评估套件包含四大类别——文化知识、经典 NLP、阅读理解和生成——分为 12 项任务。例如，经典 NLP 类别包括情感分析等任务，而生成任务包括翻译的不同方面。为确保这些类别反映 NLP 研究和使用的优先事项和趋势，我们基于对 2006 年至 2024 年初菲律宾语言 NLP 研究的历史调查进行策划。文化知识类别测试语言模型回忆事实和文化特定信息的能力。对于文化知识，我们策划了各种示例，测试大语言模型的区域和事实知识、菲律宾中心价值观以及消歧义能力。经典 NLP 类别涵盖各种信息提取和语言任务，如命名实体识别、情感分析和文本分类，这些传统上由专门的训练模型执行。在此类别中，我们包括来自 CebuaNER、TLUnified-NER 和 Universal NER 的命名实体识别实例，以及 SIB-200 和 BalitaNLP 的子集用于文本分类和情感分析。阅读理解类别评估语言模型理解和解释菲律宾文本的能力，侧重于可读性、理解和自然语言推理等任务。对于此类别，我们包括来自宿务语可读性语料库、Belebele 和 NewsPH NLI 的实例。生成类别将 FilBench 的大部分用于测试大语言模型忠实翻译文本的能力，无论是从英语到菲律宾语还是从宿务语到英语。

背景阅读

大语言模型如 GPT 系列和 Llama 已在全球广泛应用，但其性能评估多集中于英语等主流语言，对低资源语言如菲律宾语系的关注不足。菲律宾语系包括他加禄语（菲律宾语的基础）和宿务语等，拥有数千万使用者。近年来，随着 AI 技术的普及，菲律宾用户对 ChatGPT 等工具的使用激增，凸显了评估模型在这些语言上表现的重要性。此前，相关研究多依赖轶事证据或小规模测试，缺乏系统性基准。FilBench 的推出填补了这一空白，通过涵盖文化知识、经典 NLP 任务、阅读理解和生成等多个维度，为研究人员和开发者提供了标准化的评估工具。这有助于推动多语言 AI 的发展，确保技术更公平地服务于不同语言社区。

FilBench 发布：评估大语言模型对菲律宾语言的理解与生成能力

背景阅读

相关阅读

Hugging Face 推出 Jupyter Agent：训练 LLM 在笔记本中执行代码推理

英伟达发布600万条多语言推理数据集

mmBERT：ModernBERT 迈向多语言化

评论 (0)