SmolLM3 是一款小型多语言长上下文推理模型,参数量为 1.35 亿。该模型支持 10 种语言,包括英语、中文、西班牙语、法语、德语、日语、韩语、俄语、阿拉伯语和印地语。SmolLM3 的上下文长度达到 100 万 tokens,使其能够处理长文档和复杂推理任务。在多项基准测试中,SmolLM3 在推理和语言理解方面表现优异,特别是在多语言场景下。该模型已开源,代码和预训练权重可在 GitHub 上获取,供研究者和开发者使用。
SmolLM3 是一款小型多语言长上下文推理模型,参数量为 1.35 亿。该模型支持 10 种语言,上下文长度达 100 万 tokens,在推理任务中表现出色。SmolLM3 已开源,供研究者和开发者使用。
SmolLM3 是一款小型多语言长上下文推理模型,参数量为 1.35 亿。该模型支持 10 种语言,包括英语、中文、西班牙语、法语、德语、日语、韩语、俄语、阿拉伯语和印地语。SmolLM3 的上下文长度达到 100 万 tokens,使其能够处理长文档和复杂推理任务。在多项基准测试中,SmolLM3 在推理和语言理解方面表现优异,特别是在多语言场景下。该模型已开源,代码和预训练权重可在 GitHub 上获取,供研究者和开发者使用。
近年来,大型语言模型(LLMs)在自然语言处理领域取得了显著进展,但大多数模型参数量巨大,计算资源需求高,限制了其广泛应用。小型语言模型(SLMs)作为一种替代方案,旨在以更少的参数实现高效性能,便于部署在资源受限的环境中。多语言能力是 LLMs 的重要发展方向,能够支持多种语言处理,促进全球 AI 应用。长上下文能力允许模型处理更长的文本序列,对于文档分析、对话系统和复杂推理任务至关重要。SmolLM3 结合了这些特点,专注于小型化、多语言支持和长上下文推理,代表了 AI 模型优化和实用化的重要趋势。此前,类似模型如 GPT-4 和 Llama 系列在规模和性能上领先,但 SmolLM3 通过精简设计,为特定应用场景提供了更灵活的解决方案。
Hugging Face发布了Ettin Suite,这是首个在相同数据、架构和训练配方下训练的SoTA配对编码器与解码器模型套件。该套件包含从1700万到10亿参数的模型,支持掩码语言建模和因果语言建模两种训练目标。Ettin Suite实现了编码器与解码器架构之间的公平比较,并在开放数据模型中达到了最先进的性能。
英伟达发布了包含600万条样本的多语言推理数据集,支持法语、西班牙语、德语、意大利语和日语五种语言。该数据集基于先前发布的英语推理数据翻译而成,旨在提升开源模型的推理能力。同时,英伟达还推出了Nemotron Nano 2 9B模型,采用混合Transformer-Mamba架构,提供可配置的思考预算以优化成本。
Hugging Face 发布了 mmBERT,这是一个基于 ModernBERT 架构的多语言编码器模型。该模型在超过 1800 种语言的 3T+ 令牌文本上训练,性能显著优于 XLM-R。mmBERT 引入了渐进式语言包含策略,有效学习低资源语言。
登录后参与评论