NeoBeta - AI 科技资讯

NVIDIA 的 AI-Q 蓝本在 Hugging Face DeepResearch Bench 的“LLM with Search”排行榜中位列第一。AI-Q 是一个便携式开源深度研究代理，融合了 Llama 3.3-70B Instruct 和 Llama-3.3-Nemotron-Super-49B-v1.5 两个高性能开源大语言模型。Llama 3.3-70B Instruct 基于 Meta 的 Llama 系列，用于流畅的结构化报告生成。Llama-3.3-Nemotron-Super-49B-v1.5 是一个优化推理变体，通过神经架构搜索、知识蒸馏和监督与强化学习训练，擅长多步推理、查询规划和工具使用。AI-Q 参考示例还包括 NVIDIA NeMo Retriever 用于可扩展的多模态搜索，以及 NVIDIA NeMo Agent 工具包用于编排复杂的多步代理工作流。该架构支持对本地和网络数据的并行低延迟搜索，适用于需要隐私、合规或本地部署的场景。NVIDIA Llama Nemotron Super 经过后训练，支持通过系统提示切换推理模式，可用于标准聊天或深度链式推理。该模型具有 490 亿参数，上下文窗口高达 128K 令牌，可在单个 H100 GPU 上运行。AI-Q 强调透明度，包括推理痕迹和中间步骤的可视化，开发中使用了幻觉检测、多源合成和引用可信度等指标。DeepResearch Bench 使用一组评估代理堆栈。

背景阅读

Llama 是 Meta 开发的开源大语言模型系列，自发布以来在 AI 社区中广受欢迎，因其开放许可和可定制性而成为许多研究和应用的基础。NVIDIA 作为 AI 硬件和软件领域的领导者，通过其 NeMo 框架和工具包，致力于推动开源 AI 堆栈的发展，特别是在代理工作流和多模态搜索方面。DeepResearch Bench 是 Hugging Face 平台上的一个评测基准，专注于评估结合搜索功能的大语言模型在深度研究任务中的表现，反映了行业对 AI 代理能力的日益关注。开源模型与闭源替代品的竞争，推动了技术创新和透明度提升，使开发者能够构建更高效、可解释的 AI 系统。

NVIDIA AI-Q 在 DeepResearch Bench 评测中登顶开源模型榜首

背景阅读

相关阅读

英伟达发布印度合成数据集Nemotron-Personas-India

英伟达发布600万条多语言推理数据集

OpenAI发布GPT OSS开源模型系列，包含117B和21B两个版本

评论 (0)