Ettin Suite:首个SoTA配对编码器与解码器模型套件发布

1 天前·来源:Hugging Face Blog
Hugging Face编码器-解码器AI模型开源模型语言模型

Hugging Face发布了Ettin Suite,这是首个在相同数据、架构和训练配方下训练的SoTA配对编码器与解码器模型套件。该套件包含从1700万到10亿参数的模型,支持掩码语言建模和因果语言建模两种训练目标。Ettin Suite实现了编码器与解码器架构之间的公平比较,并在开放数据模型中达到了最先进的性能。

Hugging Face发布了Ettin Suite,这是首个在相同数据、架构和训练配方下训练的状态最先进(SoTA)配对编码器与解码器模型套件。该套件包含从1700万到10亿参数的模型,训练数据量为2万亿标记,支持掩码语言建模(MLM)和因果语言建模(CLM)两种训练目标。Ettin Suite基于ModernBERT配方,应用了从解码器模型借鉴的现代技术,并扩展了上下文长度至8K标记。该套件旨在实现编码器与解码器架构之间的公平比较,为分类、检索和嵌入任务提供高效模型。用户可通过GitHub上的示例代码尝试这些模型。

背景阅读

在大型语言模型(LLM)领域,解码器模型如GPT、Llama和Qwen因其生成能力而备受关注,但编码器模型如BERT在生产系统中仍广泛用于分类、检索和嵌入任务。编码器模型使用双向注意力机制,允许序列中的每个标记看到所有其他标记,而解码器模型使用因果注意力机制,仅允许标记看到之前的标记以支持自回归生成。近年来,ModernBERT等项目致力于现代化编码器模型,但之前的比较因数据集、架构和训练配方的差异而难以公平评估。Ettin Suite通过统一训练条件,填补了这一空白,为AI社区提供了首个配对模型套件,以促进架构比较和技术创新。

评论 (0)

登录后参与评论

加载评论中...