Falcon-Edge 系列是基于 BitNet 架构的强大、通用且可微调的三元格式语言模型。该系列引入并验证了一种新的预训练范式,通过单一训练过程同时生成非量化和量化模型变体,包括 bfloat16 格式的非 BitNet 模型、原生 BitNet 模型以及预量化的 BitNet 变体,后者专为轻松微调设计,使用户和开发者能根据特定应用需求定制模型。
Falcon-Edge 系列目前提供两种规模:10 亿参数和 30 亿参数,每种规模都包含基础版和指令调优版。该系列已在 Hugging Face 的专用集合中发布。
大型语言模型通常规模庞大且资源密集,随着在边缘设备上高效部署的需求增长,模型压缩研究加速。BitNet 采用三元权重(-1、0、1)在训练期间直接操作,实现端到端的超高效模型设计,不同于依赖浮点格式的降低精度训练或全精度训练后调整权重的后训练量化方法。
Falcon-Edge 系列基于内部数据混合进行了约 1.5 万亿令牌的预训练,使用经典的 WSD 学习率调度器。在 Hugging Face 排行榜 v2 基准测试中,Falcon-Edge 在类似规模模型中表现出相当或更好的性能。