Falcon-H1-Arabic是先进的阿拉伯语语言模型系列,基于Falcon-H1混合架构,该架构在每个块中集成了状态空间模型(Mamba)和Transformer注意力机制。两种组件并行运行,其表示在块的输出投影前融合,为极长序列提供线性时间可扩展性,同时保留注意力的精确长程建模能力。该系列包括3B、7B和34B参数模型,针对不同用例平衡容量、效率和可部署性。
Falcon-H1-Arabic的上下文能力显著提升,3B模型支持128K令牌,7B和34B模型支持256K令牌(约20万字)。这使模型能处理多部小说或数百页技术文档,适用于法律分析、医疗记录、学术研究和扩展对话等应用。后训练专门解决“中间迷失”挑战,确保模型有效利用其完整上下文范围。
Falcon-H1-Arabic模型在阿拉伯语自然语言处理任务中表现优异,超越了所有类似规模的最先进模型,有时甚至超越更大模型。该模型系列基于社区反馈和技术创新开发,旨在改进长上下文理解、方言变体、数学推理和领域特定知识。模型已发布,可在Hugging Face平台获取。