阿拉伯语AI排行榜更新:引入指令遵循评估并升级AraGen基准

7 小时前·来源:Hugging Face Blog
阿拉伯语AIAraGen指令遵循AI评估多语言模型

Inception与MBZUAI合作推出阿拉伯语AI排行榜空间,整合了AraGen-03-25和阿拉伯语指令遵循评估。AraGen基准更新至03-25版本,数据集扩展至340个问答对,涵盖问答、推理、安全和语法分析。阿拉伯语指令遵循排行榜基于首个公开的阿拉伯语IFEval基准,旨在评估模型遵循指令的能力。

Inception致力于增强阿拉伯语环境下的AI模型评估。此前,他们推出了AraGen,这是首批生成式阿拉伯语排行榜之一,作为评估阿拉伯语LLM在生成任务上的基准。作为持续努力的一部分,他们分享了以下更新:阿拉伯语排行榜空间,与穆罕默德·本·扎耶德人工智能大学合作推出,旨在将阿拉伯语AI评估整合到一个平台。该平台目前支持AraGen-03-25和阿拉伯语指令遵循,计划扩展到跨多种模态的阿拉伯语AI模型排行榜。AraGen 03-25版本发布,包含改进和更新的基准。指令遵循排行榜,由阿拉伯语IFEval基准驱动,这是首个公开可用的评估阿拉伯语指令遵循能力的基准。阿拉伯语排行榜空间是一个全面统一的阿拉伯语评估和任务空间,旨在作为覆盖广泛评估的中心枢纽,适用于跨模态的模型。目前,它有AraGen-03-25和阿拉伯语指令遵循作为实时排行榜。他们计划扩展此空间,增加更多排行榜和任务,用于跨多种模态的阿拉伯语AI模型。他们邀请感兴趣的贡献者通过社区标签或直接通过电子邮件联系,讨论如何将他们的工作或排行榜作为附加标签集成到此空间中。在AraGen排行榜的最新更新中,2024年12月,他们引入了AraGen基准作为AraGen排行榜的基础。该排行榜的一个关键特点是其动态性,评估数据集保持私有三个月,以确保公平和无偏见的评估。遵循相同的理念,他们公开发布了AraGen-12-24基准,以及所有由Claude-3.5-Sonnet根据3C3H指南评估的模型响应。通过分享此基准和模型响应,他们旨在鼓励社区审查它们,识别他们可能遗漏的任何意外行为,并帮助他们完善评估框架。在最新的AraGen发布中,他们将数据集扩展到包括340个问答对,比之前版本的279个有所增加。分布保持相对相似:问答约200对,推理70对,安全问答40对,正字法和语法分析30对。这种分配反映了主要关注问答作为任何语言模型、聊天机器人或AI助手的主要用例,同时仍解决其他评估领域,特别是考虑到生成具有挑战性的阿拉伯语语法和正字法查询的复杂性。此外,他们改进了法官系统提示,以增强清晰度,即使对于较小或较弱的法官模型也是如此。随着引入动态评估周期,保持基准和评估管道的一致性和可靠性至关重要。为确保这一点,他们分析了不同数据集版本和系统提示配置下前10名模型的排名变化。

背景阅读

阿拉伯语作为全球使用人数众多的语言之一,在AI领域的发展相对滞后于英语等主流语言。近年来,随着多语言AI模型的兴起,针对阿拉伯语的评估基准和排行榜逐渐受到关注。AraGen是早期针对阿拉伯语生成任务的基准之一,旨在填补这一空白。指令遵循能力是评估AI模型交互性能的关键指标,此前多集中于英语环境,阿拉伯语指令遵循基准的推出有助于推动本地化AI应用的发展。Hugging Face等开源平台在促进多语言AI评估方面扮演重要角色,通过合作与社区贡献,加速了阿拉伯语AI技术的进步。

评论 (0)

登录后参与评论

加载评论中...