NVIDIA AI-Q 在 DeepResearch Bench 评测中登顶开源模型榜首

1 天前·来源:Hugging Face Blog
NVIDIA开源模型AI代理大语言模型评测

NVIDIA 的 AI-Q 蓝本在 Hugging Face DeepResearch Bench 的“LLM with Search”排行榜中位列第一。AI-Q 融合了 Llama 3.3-70B Instruct 和 Llama-3.3-Nemotron-Super-49B-v1.5 两个开源大语言模型,支持长上下文检索和代理推理。该架构还包括 NVIDIA NeMo Retriever 和 NeMo Agent 工具包,用于可扩展的多模态搜索和复杂工作流编排。

NVIDIA 的 AI-Q 蓝本在 Hugging Face DeepResearch Bench 的“LLM with Search”排行榜中位列第一。AI-Q 是一个便携式开源深度研究代理,融合了 Llama 3.3-70B Instruct 和 Llama-3.3-Nemotron-Super-49B-v1.5 两个高性能开源大语言模型。Llama 3.3-70B Instruct 基于 Meta 的 Llama 系列,用于流畅的结构化报告生成。Llama-3.3-Nemotron-Super-49B-v1.5 是一个优化推理变体,通过神经架构搜索、知识蒸馏和监督与强化学习训练,擅长多步推理、查询规划和工具使用。AI-Q 参考示例还包括 NVIDIA NeMo Retriever 用于可扩展的多模态搜索,以及 NVIDIA NeMo Agent 工具包用于编排复杂的多步代理工作流。该架构支持对本地和网络数据的并行低延迟搜索,适用于需要隐私、合规或本地部署的场景。NVIDIA Llama Nemotron Super 经过后训练,支持通过系统提示切换推理模式,可用于标准聊天或深度链式推理。该模型具有 490 亿参数,上下文窗口高达 128K 令牌,可在单个 H100 GPU 上运行。AI-Q 强调透明度,包括推理痕迹和中间步骤的可视化,开发中使用了幻觉检测、多源合成和引用可信度等指标。DeepResearch Bench 使用一组评估代理堆栈。

背景阅读

Llama 是 Meta 开发的开源大语言模型系列,自发布以来在 AI 社区中广受欢迎,因其开放许可和可定制性而成为许多研究和应用的基础。NVIDIA 作为 AI 硬件和软件领域的领导者,通过其 NeMo 框架和工具包,致力于推动开源 AI 堆栈的发展,特别是在代理工作流和多模态搜索方面。DeepResearch Bench 是 Hugging Face 平台上的一个评测基准,专注于评估结合搜索功能的大语言模型在深度研究任务中的表现,反映了行业对 AI 代理能力的日益关注。开源模型与闭源替代品的竞争,推动了技术创新和透明度提升,使开发者能够构建更高效、可解释的 AI 系统。

评论 (0)

登录后参与评论

加载评论中...