mmBERT:ModernBERT 迈向多语言化

1 天前·来源:Hugging Face Blog
mmBERT多语言模型NLPHugging FaceAI编码器

Hugging Face 发布了 mmBERT,这是一个基于 ModernBERT 架构的多语言编码器模型。该模型在超过 1800 种语言的 3T+ 令牌文本上训练,性能显著优于 XLM-R。mmBERT 引入了渐进式语言包含策略,有效学习低资源语言。

Hugging Face 发布了 mmBERT,这是一个基于 ModernBERT 架构的多语言编码器模型。mmBERT 在超过 1800 种语言的 3T+ 令牌文本上训练,包括高质量英语内容、多语言网络内容和过滤后的多语言数据。训练数据还整合了来自 Dolma、MegaWika v2 和 ProLong 的专业语料库,涵盖代码库、学术内容、参考资料和社区讨论。

mmBERT 采用了渐进式语言包含策略,从 60 种高资源语言开始,扩展到 110 种语言,最终包含 FineWeb2 中的所有 1833 种语言。这种策略旨在最大化低资源语言数据的影响,同时保持整体数据质量。模型基于 ModernBERT-base 架构,拥有 22 层和 1152 个中间维度,并引入了针对多语言学习的关键创新。

mmBERT 在性能上显著优于之前的 XLM-R 等多语言模型,同时速度更快。模型开发了新的策略,以有效学习低资源语言,成为首个在 XLM-R 基础上实现改进的模型。用户可以通过 Hugging Face 提供的示例代码尝试使用该模型。

背景阅读

mmBERT 是基于 ModernBERT 架构开发的多语言编码器模型,属于自然语言处理(NLP)领域。ModernBERT 是 Hugging Face 先前发布的高效 BERT 变体,专注于英语任务,通过优化架构和训练方法提升速度和性能。多语言模型如 XLM-R 和 mBERT 已在跨语言任务中广泛应用,但面临低资源语言学习效率和数据质量挑战。mmBERT 的发布旨在通过大规模多语言数据和创新训练策略,解决这些问题,推动 AI 在全球化应用中的发展。该模型利用现代数据过滤技术和渐进式训练方法,反映了 AI 模型向更高效、更包容的多语言处理方向演进。

评论 (0)

登录后参与评论

加载评论中...