NeoBeta - AI 科技资讯

Inception致力于增强阿拉伯语环境下的AI模型评估。此前，他们推出了AraGen，这是首批生成式阿拉伯语排行榜之一，作为评估阿拉伯语LLM在生成任务上的基准。作为持续努力的一部分，他们分享了以下更新：阿拉伯语排行榜空间，与穆罕默德·本·扎耶德人工智能大学合作推出，旨在将阿拉伯语AI评估整合到一个平台。该平台目前支持AraGen-03-25和阿拉伯语指令遵循，计划扩展到跨多种模态的阿拉伯语AI模型排行榜。AraGen 03-25版本发布，包含改进和更新的基准。指令遵循排行榜，由阿拉伯语IFEval基准驱动，这是首个公开可用的评估阿拉伯语指令遵循能力的基准。阿拉伯语排行榜空间是一个全面统一的阿拉伯语评估和任务空间，旨在作为覆盖广泛评估的中心枢纽，适用于跨模态的模型。目前，它有AraGen-03-25和阿拉伯语指令遵循作为实时排行榜。他们计划扩展此空间，增加更多排行榜和任务，用于跨多种模态的阿拉伯语AI模型。他们邀请感兴趣的贡献者通过社区标签或直接通过电子邮件联系，讨论如何将他们的工作或排行榜作为附加标签集成到此空间中。在AraGen排行榜的最新更新中，2024年12月，他们引入了AraGen基准作为AraGen排行榜的基础。该排行榜的一个关键特点是其动态性，评估数据集保持私有三个月，以确保公平和无偏见的评估。遵循相同的理念，他们公开发布了AraGen-12-24基准，以及所有由Claude-3.5-Sonnet根据3C3H指南评估的模型响应。通过分享此基准和模型响应，他们旨在鼓励社区审查它们，识别他们可能遗漏的任何意外行为，并帮助他们完善评估框架。在最新的AraGen发布中，他们将数据集扩展到包括340个问答对，比之前版本的279个有所增加。分布保持相对相似：问答约200对，推理70对，安全问答40对，正字法和语法分析30对。这种分配反映了主要关注问答作为任何语言模型、聊天机器人或AI助手的主要用例，同时仍解决其他评估领域，特别是考虑到生成具有挑战性的阿拉伯语语法和正字法查询的复杂性。此外，他们改进了法官系统提示，以增强清晰度，即使对于较小或较弱的法官模型也是如此。随着引入动态评估周期，保持基准和评估管道的一致性和可靠性至关重要。为确保这一点，他们分析了不同数据集版本和系统提示配置下前10名模型的排名变化。

阿拉伯语AI排行榜更新：引入指令遵循评估并升级AraGen基准

背景阅读

相关阅读

普林斯顿大学发布HELMET：全面评估长上下文语言模型

Meta 在 Hugging Face Hub 发布 Llama Guard 4 安全模型

Protect AI 与 Hugging Face 合作六个月扫描 400 万模型

评论 (0)