NVIDIA 发布了 Nemotron 3 Nano 30B A3B 模型,并采用开放评估方法,以区分模型改进是否真实。该公司发布了完整的评估配方,使用 NeMo Evaluator 库构建,使任何人都能重新运行评估管道、检查工件并独立分析结果。NeMo Evaluator 提供了一个统一的评估系统,允许定义基准、提示、配置和运行时行为,并可跨模型和发布版本重用。该工具将评估管道与推理后端分离,支持托管端点、本地部署或第三方提供商,确保评估方法独立于推理设置。NeMo Evaluator 设计用于扩展,从快速单基准验证到完整模型卡套件和跨多个模型的重复评估。该工具的结构化工件和日志支持审计性,确保评估过程透明和可追溯。