在 DeepResearch Bench 上评估开源 Llama Nemotron 模型
贡献者: David Austin, Raja Biswas, Gilberto Titericz Junior, NVIDIA
NVIDIA 的 AI-Q Blueprint——领先的便携式开源深度研究代理——最近荣登 Hugging Face “带搜索功能的 LLM” DeepResearch Bench 排行榜榜首。这是开源 AI 堆栈向前迈出的重要一步,证明开发者可访问的模型可以支持先进的代理工作流,其性能可与闭源替代方案媲美或超越。
AI-Q 有何与众不同之处?它融合了两个高性能的开源 LLM——Llama 3.3-70B Instruct 和 Llama-3.3-Nemotron-Super-49B-v1.5——以协调长上下文检索、代理推理和稳健合成。
核心堆栈:模型选择与技术创新
- Llama 3.3-70B Instruct:Meta Llama 系列的衍生,开放许可,可不受限制地部署,是流畅、结构化报告生成的基础。
- Llama-3.3-Nemotron-Super-49B-v1.5:一个优化过的、注重推理的模型变体。通过神经架构搜索(NAS)、知识蒸馏以及连续的监督学习和强化学习迭代构建,它擅长多步推理、查询规划、工具使用和反思——所有这些都具有更小的内存占用,可在标准 GPU 上高效部署。
AI-Q 参考示例还包括::
- NVIDIA NeMo Retriever 用于可扩展的多模态搜索(内部+外部)。
- NVIDIA NeMo Agent toolkit 用于编排复杂的、多步骤的代理工作流。
该架构支持对本地和网络数据进行并行、低延迟搜索,非常适合需要隐私、合规性或通过本地部署降低延迟的使用场景。
使用 Llama Nemotron 进行深度推理
NVIDIA Llama Nemotron Super 不仅仅是一个微调的指令模型——它经过后训练,专门用于显式代理推理,并通过系统提示支持推理 ON/OFF 切换。你可以在标准聊天 LLM 模式下使用它,或切换到深度思维链推理模式,用于代理管道——实现动态的、上下文敏感的工作流。
主要亮点
- 多阶段后训练:结合了指令遵循、数学/程序推理和工具调用能力。
- 透明模型血统:直接可追溯到开放的 Meta 权重,并围绕合成数据和微调数据集提供额外的开放性。
- 效率:49B 参数,上下文窗口高达 128K 令牌,可以在单个 H100 GPU 或更小的设备上运行,保持推理成本可预测且快速。
评估:指标的透明度和稳健性
AI-Q 的核心优势之一是透明度——不仅体现在输出上,还体现在推理轨迹和中间步骤上。在开发过程中,NVIDIA 团队利用了标准和新的指标,例如:
- 幻觉检测:在生成时检查每个事实性声明。
- 多源合成:从不同证据中合成新见解。
- 引用可信度:自动评估声明与证据的链接。
- RAGAS 指标:自动评估检索增强生成准确性。
该架构非常适合细粒度、逐步的评估和调试——这是代理管道开发中最大的痛点之一。
基准测试结果:DeepResearch Bench
DeepResearch Bench 使用 100 多个长上下文、真实世界研究任务(涵盖科学、金融、艺术、历史、软件等领域)来评估代理堆栈。与传统的问答不同,这些任务需要报告长度的综合和复杂的多跳推理。
- 截至 2025 年 8 月,AI-Q 在“带搜索功能的 LLM”类别中获得了 40.52 的总分,目前在所有完全开放许可的堆栈中位居榜首。
- 最强指标:全面性(报告深度)、洞察力(分析质量)和引用质量。
致 Hugging Face 开发者社区
- Llama-3.3-Nemotron-Super-49B-v1.5 和 Llama 3.3-70B Instruct 均可在 Hugging Face 上直接使用/下载。您可以使用几行 Python 代码在自己的管道中试用它们,或使用 vLLM 进行部署以实现快速推理和工具调用支持(请参阅模型卡以获取代码/服务示例)。
- 开放的后训练数据、透明的评估方法和宽松的许可使得实验和重现成为可能。
总结
开源生态系统正在迅速缩小差距——并在某些领域领先——在重要的真实世界代理任务上。基于 Llama Nemotron 构建的 AI-Q 证明,您无需牺牲透明度或控制即可实现最先进的结果。
请从 Hugging Face 或 build.nvidia.com 尝试该堆栈,或将其用于您自己的研究代理项目。