Ettin Suite：首个SoTA配对编码器与解码器模型套件发布

1 天前·来源：Hugging Face Blog

Hugging Face编码器-解码器AI模型开源模型语言模型

Hugging Face发布了Ettin Suite，这是首个在相同数据、架构和训练配方下训练的SoTA配对编码器与解码器模型套件。该套件包含从1700万到10亿参数的模型，支持掩码语言建模和因果语言建模两种训练目标。Ettin Suite实现了编码器与解码器架构之间的公平比较，并在开放数据模型中达到了最先进的性能。

Hugging Face发布了Ettin Suite，这是首个在相同数据、架构和训练配方下训练的状态最先进（SoTA）配对编码器与解码器模型套件。该套件包含从1700万到10亿参数的模型，训练数据量为2万亿标记，支持掩码语言建模（MLM）和因果语言建模（CLM）两种训练目标。Ettin Suite基于ModernBERT配方，应用了从解码器模型借鉴的现代技术，并扩展了上下文长度至8K标记。该套件旨在实现编码器与解码器架构之间的公平比较，为分类、检索和嵌入任务提供高效模型。用户可通过GitHub上的示例代码尝试这些模型。

阅读原文

背景阅读

在大型语言模型（LLM）领域，解码器模型如GPT、Llama和Qwen因其生成能力而备受关注，但编码器模型如BERT在生产系统中仍广泛用于分类、检索和嵌入任务。编码器模型使用双向注意力机制，允许序列中的每个标记看到所有其他标记，而解码器模型使用因果注意力机制，仅允许标记看到之前的标记以支持自回归生成。近年来，ModernBERT等项目致力于现代化编码器模型，但之前的比较因数据集、架构和训练配方的差异而难以公平评估。Ettin Suite通过统一训练条件，填补了这一空白，为AI社区提供了首个配对模型套件，以促进架构比较和技术创新。

Ettin Suite：首个SoTA配对编码器与解码器模型套件发布

背景阅读

相关阅读

Hugging Face 推出 FutureBench 基准测试，评估 AI 代理预测未来事件能力

NVIDIA NIM 加速 Hugging Face 上大量 LLM 的部署

Hugging Face 发布轻量级实验跟踪库 Trackio

评论 (0)