SmolLM3：小型多语言长上下文推理模型发布

1 天前·来源：Hugging Face Blog

AI模型多语言AI长上下文推理

SmolLM3 是一款小型多语言长上下文推理模型，参数量为 1.35 亿。该模型支持 10 种语言，上下文长度达 100 万 tokens，在推理任务中表现出色。SmolLM3 已开源，供研究者和开发者使用。

SmolLM3 是一款小型多语言长上下文推理模型，参数量为 1.35 亿。该模型支持 10 种语言，包括英语、中文、西班牙语、法语、德语、日语、韩语、俄语、阿拉伯语和印地语。SmolLM3 的上下文长度达到 100 万 tokens，使其能够处理长文档和复杂推理任务。在多项基准测试中，SmolLM3 在推理和语言理解方面表现优异，特别是在多语言场景下。该模型已开源，代码和预训练权重可在 GitHub 上获取，供研究者和开发者使用。

阅读原文

背景阅读

近年来，大型语言模型（LLMs）在自然语言处理领域取得了显著进展，但大多数模型参数量巨大，计算资源需求高，限制了其广泛应用。小型语言模型（SLMs）作为一种替代方案，旨在以更少的参数实现高效性能，便于部署在资源受限的环境中。多语言能力是 LLMs 的重要发展方向，能够支持多种语言处理，促进全球 AI 应用。长上下文能力允许模型处理更长的文本序列，对于文档分析、对话系统和复杂推理任务至关重要。SmolLM3 结合了这些特点，专注于小型化、多语言支持和长上下文推理，代表了 AI 模型优化和实用化的重要趋势。此前，类似模型如 GPT-4 和 Llama 系列在规模和性能上领先，但 SmolLM3 通过精简设计，为特定应用场景提供了更灵活的解决方案。

SmolLM3：小型多语言长上下文推理模型发布

背景阅读

相关阅读

Ettin Suite：首个SoTA配对编码器与解码器模型套件发布

英伟达发布600万条多语言推理数据集

mmBERT：ModernBERT 迈向多语言化

评论 (0)