Hugging Face 发布了 mmBERT,这是一个基于 ModernBERT 架构的多语言编码器模型。mmBERT 在超过 1800 种语言的 3T+ 令牌文本上训练,包括高质量英语内容、多语言网络内容和过滤后的多语言数据。训练数据还整合了来自 Dolma、MegaWika v2 和 ProLong 的专业语料库,涵盖代码库、学术内容、参考资料和社区讨论。
mmBERT 采用了渐进式语言包含策略,从 60 种高资源语言开始,扩展到 110 种语言,最终包含 FineWeb2 中的所有 1833 种语言。这种策略旨在最大化低资源语言数据的影响,同时保持整体数据质量。模型基于 ModernBERT-base 架构,拥有 22 层和 1152 个中间维度,并引入了针对多语言学习的关键创新。
mmBERT 在性能上显著优于之前的 XLM-R 等多语言模型,同时速度更快。模型开发了新的策略,以有效学习低资源语言,成为首个在 XLM-R 基础上实现改进的模型。用户可以通过 Hugging Face 提供的示例代码尝试使用该模型。