英伟达发布600万条多语言推理数据集

1 天前·来源：Hugging Face Blog

英伟达多语言推理AI数据集Nemotron开源模型

英伟达发布了包含600万条样本的多语言推理数据集，支持法语、西班牙语、德语、意大利语和日语五种语言。该数据集基于先前发布的英语推理数据翻译而成，旨在提升开源模型的推理能力。同时，英伟达还推出了Nemotron Nano 2 9B模型，采用混合Transformer-Mamba架构，提供可配置的思考预算以优化成本。

英伟达发布了600万条多语言推理数据集，支持法语、西班牙语、德语、意大利语和日语五种语言。该数据集基于先前发布的英语推理数据翻译而成，旨在提升开源模型的推理能力。数据集已发布在Hugging Face平台上。

英伟达同时推出了Nemotron Nano 2 9B模型，采用混合Transformer-Mamba架构，模型参数量为90亿。该模型支持可配置的思考预算，用户可根据需求调整准确度、吞吐量和成本，推理成本可降低高达60%。模型权重可在Hugging Face获取，并作为NVIDIA NIM提供高吞吐量和低延迟服务。

在数据集构建过程中，英伟达将英语推理数据逐行翻译为目标语言，并保留原始英语推理链。为保持高质量翻译和减少幻觉，采用了分句翻译、特定格式包装和语言识别等机制。模型目标应用包括客户服务代理、支持聊天机器人、分析副驾驶和边缘/RTX部署。

阅读原文

背景阅读

多语言推理数据集是人工智能领域的重要资源，旨在提升模型在不同语言环境下的逻辑推理和问题解决能力。英伟达此前已发布Nemotron Post-Training Dataset v1和Llama Nemotron Post-Training Dataset等数据集，用于训练如Llama Nemotron Super模型。这些数据集通常用于后训练阶段，通过翻译和优化现有数据来扩展模型的多语言能力。混合Transformer-Mamba架构是近年来兴起的技术，结合了Transformer的注意力机制和Mamba的状态空间模型优势，旨在提高模型吞吐量和效率，同时保持准确度。在机器翻译任务中，大型语言模型已展现出先进性能，但在翻译合成数据时可能面临幻觉问题，英伟达通过技术手段应对这一挑战。开源模型生态中，数据集的发布有助于推动模型透明度和持续改进，英伟达此举延续了其在开放生态中的承诺。

英伟达发布600万条多语言推理数据集

背景阅读

相关阅读

英伟达发布印度合成数据集Nemotron-Personas-India

mmBERT：ModernBERT 迈向多语言化

谷歌发布EmbeddingGemma，高效多语言嵌入模型

评论 (0)