Falcon-Edge 系列发布:强大的 1.58 位三元语言模型

7 小时前·来源:Hugging Face Blog
Falcon-EdgeBitNetAI模型三元权重边缘AI

Falcon-Edge 系列是基于 BitNet 架构的三元格式语言模型,提供 1B 和 3B 参数版本。该系列通过单一训练过程同时生成非量化和量化模型变体,支持轻松微调。模型已在 Hugging Face 上发布,适用于边缘设备部署。

Falcon-Edge 系列是基于 BitNet 架构的强大、通用且可微调的三元格式语言模型。该系列引入并验证了一种新的预训练范式,通过单一训练过程同时生成非量化和量化模型变体,包括 bfloat16 格式的非 BitNet 模型、原生 BitNet 模型以及预量化的 BitNet 变体,后者专为轻松微调设计,使用户和开发者能根据特定应用需求定制模型。

Falcon-Edge 系列目前提供两种规模:10 亿参数和 30 亿参数,每种规模都包含基础版和指令调优版。该系列已在 Hugging Face 的专用集合中发布。

大型语言模型通常规模庞大且资源密集,随着在边缘设备上高效部署的需求增长,模型压缩研究加速。BitNet 采用三元权重(-1、0、1)在训练期间直接操作,实现端到端的超高效模型设计,不同于依赖浮点格式的降低精度训练或全精度训练后调整权重的后训练量化方法。

Falcon-Edge 系列基于内部数据混合进行了约 1.5 万亿令牌的预训练,使用经典的 WSD 学习率调度器。在 Hugging Face 排行榜 v2 基准测试中,Falcon-Edge 在类似规模模型中表现出相当或更好的性能。

背景阅读

Falcon-Edge 系列是基于 BitNet 架构的语言模型,BitNet 是一种创新的低精度训练范式,使用三元权重(-1、0、1)在训练期间直接操作,旨在实现高效部署。传统的大型语言模型通常采用高精度浮点格式,导致计算和内存需求高,不适合边缘设备。近年来,模型压缩技术如降低精度训练(如 FP8)和后训练量化得到发展,但 BitNet 通过端到端的三元设计提供了更高效的替代方案。Falcon-Edge 系列扩展了这一理念,提供预训练模型,支持用户微调以适应特定任务,同时保持竞争力。该系列由 TII UAE 开发,是 AI 模型轻量化领域的重要进展,有助于推动 AI 在资源受限环境中的应用。

评论 (0)

登录后参与评论

加载评论中...