NVIDIA 发布 Nemotron 3 Nano 并采用开放评估标准

2 天前·来源：Hugging Face Blog

NVIDIANemotronAI评估NeMo Evaluator开放标准

NVIDIA 发布了 Nemotron 3 Nano 30B A3B 模型，并采用开放评估方法。该公司发布了完整的评估配方，使用 NeMo Evaluator 库构建，确保结果可独立验证。这一举措旨在解决模型评估中的透明度问题，使开发者能够复现评估流程。

NVIDIA 发布了 Nemotron 3 Nano 30B A3B 模型，并采用开放评估方法，以区分模型改进是否真实。该公司发布了完整的评估配方，使用 NeMo Evaluator 库构建，使任何人都能重新运行评估管道、检查工件并独立分析结果。NeMo Evaluator 提供了一个统一的评估系统，允许定义基准、提示、配置和运行时行为，并可跨模型和发布版本重用。该工具将评估管道与推理后端分离，支持托管端点、本地部署或第三方提供商，确保评估方法独立于推理设置。NeMo Evaluator 设计用于扩展，从快速单基准验证到完整模型卡套件和跨多个模型的重复评估。该工具的结构化工件和日志支持审计性，确保评估过程透明和可追溯。

阅读原文

背景阅读

在人工智能领域，模型评估的透明度和可复现性一直是关键挑战。随着模型规模的扩大和性能的提升，评估结果往往受到数据集、提示工程、配置参数等多种因素的影响，导致不同模型之间的比较变得困难。过去，许多模型发布时缺乏详细的评估细节，如配置、提示、日志等，这使得独立验证结果几乎不可能。NVIDIA 的 NeMo Evaluator 库旨在解决这一问题，通过提供统一的评估框架，确保评估过程的一致性和透明度。该工具支持从单基准测试到大规模模型评估的扩展，并允许与不同推理后端集成，从而促进更可靠的模型比较和行业标准的建立。开放评估标准有助于推动 AI 社区的协作和创新，减少评估偏差，提升模型可信度。

NVIDIA 发布 Nemotron 3 Nano 并采用开放评估标准

背景阅读

相关阅读

英伟达在CES发布Rubin平台与开放模型，推动AI多领域应用

Artificial Analysis 全面改革 AI 智能指数，用真实世界测试取代传统基准

英伟达发布新开源模型、数据与工具，推动各行业AI发展

评论 (0)