NeoBeta - AI 科技资讯

Hugging Face 发布了 mmBERT，这是一个基于 ModernBERT 架构的多语言编码器模型。mmBERT 在超过 1800 种语言的 3T+ 令牌文本上训练，包括高质量英语内容、多语言网络内容和过滤后的多语言数据。训练数据还整合了来自 Dolma、MegaWika v2 和 ProLong 的专业语料库，涵盖代码库、学术内容、参考资料和社区讨论。

mmBERT 采用了渐进式语言包含策略，从 60 种高资源语言开始，扩展到 110 种语言，最终包含 FineWeb2 中的所有 1833 种语言。这种策略旨在最大化低资源语言数据的影响，同时保持整体数据质量。模型基于 ModernBERT-base 架构，拥有 22 层和 1152 个中间维度，并引入了针对多语言学习的关键创新。

mmBERT 在性能上显著优于之前的 XLM-R 等多语言模型，同时速度更快。模型开发了新的策略，以有效学习低资源语言，成为首个在 XLM-R 基础上实现改进的模型。用户可以通过 Hugging Face 提供的示例代码尝试使用该模型。

背景阅读

mmBERT 是基于 ModernBERT 架构开发的多语言编码器模型，属于自然语言处理（NLP）领域。ModernBERT 是 Hugging Face 先前发布的高效 BERT 变体，专注于英语任务，通过优化架构和训练方法提升速度和性能。多语言模型如 XLM-R 和 mBERT 已在跨语言任务中广泛应用，但面临低资源语言学习效率和数据质量挑战。mmBERT 的发布旨在通过大规模多语言数据和创新训练策略，解决这些问题，推动 AI 在全球化应用中的发展。该模型利用现代数据过滤技术和渐进式训练方法，反映了 AI 模型向更高效、更包容的多语言处理方向演进。

mmBERT：ModernBERT 迈向多语言化

背景阅读

相关阅读

Hugging Face 推出 Jupyter Agent：训练 LLM 在笔记本中执行代码推理

Sentence Transformers 库正式加入 Hugging Face

评论 (0)