Falcon-H1:混合头语言模型家族重新定义效率与性能

18 小时前·来源:Hugging Face Blog
Falcon-H1语言模型开源模型混合架构状态空间模型

Falcon-H1系列包含六款开源模型,参数量从0.5B到34B不等。该系列采用混合架构,结合了Transformer注意力机制与状态空间模型。所有模型均基于Apache 2.0许可发布,支持256K上下文长度和18种语言。

Falcon-H1系列包含六款开源模型,参数量分别为0.5B、1.5B、1.5B-Deep、3B、7B和34B。每个模型都提供基础版和指令调优版。该系列采用混合架构,将基于Transformer的注意力机制与状态空间模型相结合。状态空间模型以其优异的长上下文记忆和计算效率而闻名。这种架构创新通过训练动态和数据利用方面的基础性进步得到进一步增强。所有开源模型均基于Apache 2.0许可发布。

Falcon-H1的关键特性包括混合架构、广泛的模型尺寸、多语言支持、紧凑模型与高性能以及256K上下文支持。混合架构在混合混合器块中并行结合了注意力和Mamba-2头。注意力和Mamba头的数量可以独立调整,以实现最佳的注意力/SSM比例。这种混合设计实现了更快的推理速度、更低的内存使用率以及跨任务的强大泛化能力。

Falcon-H1模型支持多达18种语言,包括阿拉伯语、捷克语、德语、英语、西班牙语、法语、印地语、意大利语、日语、韩语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、俄语、瑞典语、乌尔都语和中文。这得益于在多语言数据集上训练的多语言分词器,可扩展至100多种语言。Falcon-H1模型支持高达256K的上下文长度,适用于长文档处理、多轮对话和长程推理等应用。

背景阅读

Falcon-H1是阿联酋技术创新研究所(TII)开发的语言模型系列,延续了其Falcon系列的开源传统。该系列在架构上进行了创新,结合了Transformer注意力机制和状态空间模型。Transformer架构自2017年提出以来,已成为自然语言处理领域的主流,但其注意力机制的计算复杂度随序列长度呈二次方增长,限制了长上下文处理能力。状态空间模型是一种新兴的序列建模方法,通过状态空间方程对序列进行建模,具有线性计算复杂度和良好的长程依赖捕捉能力。近年来,Mamba等基于状态空间模型的架构在语言建模任务上展现出与Transformer相媲美的性能,同时具有更高的计算效率。Falcon-H1的混合架构尝试结合两者的优势,旨在在保持高性能的同时提升效率。当前,开源语言模型社区正积极探索更高效的架构,以降低部署成本并扩展应用场景,Falcon-H1的发布是这一趋势下的重要尝试。

评论 (0)

登录后参与评论

加载评论中...