阿联酋技术创新研究院于2025年5月21日发布了Falcon-Arabic,这是一个7B参数的大语言模型,专为阿拉伯语自然语言处理设计。该模型基于Falcon 3架构,支持阿拉伯语、英语及其他多种语言,在通用知识、阿拉伯语语法、数学推理、复杂问题解决和阿拉伯方言理解方面表现优异。Falcon-Arabic的上下文长度为32,000个令牌,能够处理长文档,支持检索增强生成、深度内容创作和知识密集型任务等高级应用。
Falcon-Arabic在阿拉伯语大语言模型中重新定义了性能边界,显著超越了同规模的其他阿拉伯语模型,甚至优于规模达四倍大的模型。这使其成为阿拉伯语开发者和研究者的高效且可访问的解决方案。近年来,大语言模型在人工智能领域推动了翻译、内容创作和虚拟助手等工具的变革,但进展主要集中在英语等高代表性语言,阿拉伯语等语言则相对不足。阿拉伯语具有形态丰富、双语体(涵盖现代标准阿拉伯语和多种地区方言)以及跨文化多样性人口使用的特点,开发强大的阿拉伯语大语言模型对确保阿拉伯语社区全面融入AI革命至关重要。
Falcon-Arabic是Falcon 3模型家族的专门适配版本,由阿联酋技术创新研究院开发。Falcon模型以其多语言能力和开源方法获得全球认可,Falcon-Arabic在此基础上,为阿拉伯语带来先进的语言理解和生成能力。通过训练模型处理现代标准阿拉伯语和关键方言,Falcon-Arabic填补了语言技术的关键空白,为海湾、中东和北非地区提供更自然、智能和包容的阿拉伯语AI。在阿拉伯语大语言模型领域,主要方法包括从头训练、适配多语言模型或使用原生支持阿拉伯语的多语言模型。基于Open Arabic LLM Leaderboard的观察,适配和多语言模型在效率和能力上持续优于其他方法。为延续这一势头,团队选择了Falcon 3-7B作为基础,该模型在性能和资源效率之间实现了实用平衡。