英伟达发布600万条多语言推理数据集

1 天前·来源:Hugging Face Blog
英伟达多语言推理AI数据集Nemotron开源模型

英伟达发布了包含600万条样本的多语言推理数据集,支持法语、西班牙语、德语、意大利语和日语五种语言。该数据集基于先前发布的英语推理数据翻译而成,旨在提升开源模型的推理能力。同时,英伟达还推出了Nemotron Nano 2 9B模型,采用混合Transformer-Mamba架构,提供可配置的思考预算以优化成本。

英伟达发布了600万条多语言推理数据集,支持法语、西班牙语、德语、意大利语和日语五种语言。该数据集基于先前发布的英语推理数据翻译而成,旨在提升开源模型的推理能力。数据集已发布在Hugging Face平台上。

英伟达同时推出了Nemotron Nano 2 9B模型,采用混合Transformer-Mamba架构,模型参数量为90亿。该模型支持可配置的思考预算,用户可根据需求调整准确度、吞吐量和成本,推理成本可降低高达60%。模型权重可在Hugging Face获取,并作为NVIDIA NIM提供高吞吐量和低延迟服务。

在数据集构建过程中,英伟达将英语推理数据逐行翻译为目标语言,并保留原始英语推理链。为保持高质量翻译和减少幻觉,采用了分句翻译、特定格式包装和语言识别等机制。模型目标应用包括客户服务代理、支持聊天机器人、分析副驾驶和边缘/RTX部署。

背景阅读

多语言推理数据集是人工智能领域的重要资源,旨在提升模型在不同语言环境下的逻辑推理和问题解决能力。英伟达此前已发布Nemotron Post-Training Dataset v1和Llama Nemotron Post-Training Dataset等数据集,用于训练如Llama Nemotron Super模型。这些数据集通常用于后训练阶段,通过翻译和优化现有数据来扩展模型的多语言能力。混合Transformer-Mamba架构是近年来兴起的技术,结合了Transformer的注意力机制和Mamba的状态空间模型优势,旨在提高模型吞吐量和效率,同时保持准确度。在机器翻译任务中,大型语言模型已展现出先进性能,但在翻译合成数据时可能面临幻觉问题,英伟达通过技术手段应对这一挑战。开源模型生态中,数据集的发布有助于推动模型透明度和持续改进,英伟达此举延续了其在开放生态中的承诺。

评论 (0)

登录后参与评论

加载评论中...