Falcon-H1系列包含六款开源模型,参数量分别为0.5B、1.5B、1.5B-Deep、3B、7B和34B。每个模型都提供基础版和指令调优版。该系列采用混合架构,将基于Transformer的注意力机制与状态空间模型相结合。状态空间模型以其优异的长上下文记忆和计算效率而闻名。这种架构创新通过训练动态和数据利用方面的基础性进步得到进一步增强。所有开源模型均基于Apache 2.0许可发布。
Falcon-H1的关键特性包括混合架构、广泛的模型尺寸、多语言支持、紧凑模型与高性能以及256K上下文支持。混合架构在混合混合器块中并行结合了注意力和Mamba-2头。注意力和Mamba头的数量可以独立调整,以实现最佳的注意力/SSM比例。这种混合设计实现了更快的推理速度、更低的内存使用率以及跨任务的强大泛化能力。
Falcon-H1模型支持多达18种语言,包括阿拉伯语、捷克语、德语、英语、西班牙语、法语、印地语、意大利语、日语、韩语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、俄语、瑞典语、乌尔都语和中文。这得益于在多语言数据集上训练的多语言分词器,可扩展至100多种语言。Falcon-H1模型支持高达256K的上下文长度,适用于长文档处理、多轮对话和长程推理等应用。