使用 NVIDIA 开放模型和方案探索、构建和创新 AI 推理

生成式 AI (GenAI) 正在彻底改变语言理解、视觉-语言集成、机器人技术、物理 AI 等各个领域。大型语言模型 (LLM) 处于领先地位,正在改变语言理解和翻译等应用。在机器人技术领域,GenAI 使机器人能够理解和执行复杂的指令,在动态环境中导航,并以卓越的精度执行任务。视觉-语言模型使机器能够无缝处理和解释视觉信息以及文本数据,从而增强人机交互和态势感知。物理 AI 利用 GenAI 创建能够学习和适应其物理环境的系统,从而推动自动驾驶、智能制造和医疗机器人领域的进步
NVIDIA 热情致力于赋能开源社区,尤其是在 Hugging Face 等平台上,以引领这一创新浪潮。在 Hugging Face 上,NVIDIA 拥有超过 370 个模型,包括用于构建代理的Llama Nemotron、作为视频生成世界基础模型的Cosmos,以及用于人机推理的GR00T N1,NVIDIA 正在引领潮流。除了模型之外,NVIDIA 还发布了 50 多个开源数据集,为下一代 AI 开发提供了必要的工具和资源。
本博客探讨了 NVIDIA 的开放推理模型、其蒸馏方案和自定义调整数据集。了解 AI 的尖端进步,预览巴黎 GTC 大会的创新,并学习 Hugging Face 上的资源如何促进您的 AI 之旅。
Llama Nemotron 家族:开放式推理模型
我们最近发布了Llama Nemotron,这是一系列开放式推理模型,旨在实现真实世界的性能和灵活性。这些模型有不同“尺寸”——Ultra、Super 和Nano——因此,无论您是针对 NVIDIA Jetson 等边缘设备、使用 NVIDIA RTX GPU 的本地设置,还是大规模部署,都有适合您的版本。
- Llama Nemotron Ultra(253B 参数)为复杂的企业工作流程提供最大精度,在 GPQA Diamond 科学推理基准测试中达到 76% 的准确率,优于平均 65% 的博士级专家。
- Llama Nemotron Super(49B 参数)平衡了精度和效率,针对单个 NVIDIA H100 GPU 部署进行了优化,同时保持了领先的性能。
- Llama Nemotron Nano(4B 参数)将推理引入边缘环境,在资源受限的情况下实现最高效率和最低延迟。
Llama Nemotron 模型的突出之处在于其在推理密集型任务和标准任务中都表现出色。由于剪枝和蒸馏等高级优化技术,它们的吞吐量比领先的开源推理模型高出五倍。
一个独特的特点是能够切换推理的开启或关闭,从而实现高效的资源利用。例如,对于“法国首都是什么?”等简单查询可以跳过推理,但对于规划具有多个约束的行程等复杂任务则可以激活推理,从而确保效率和精度。
这些模型在科学推理、代码生成和工具集成等领域表现出色,使其成为企业 AI 不可或缺的一部分。它们处理多步问题、生成结构化答案以及与外部系统交互的能力,使其成为构建自主代理的理想选择。此外,它们的指令遵循技能确保了执行详细指令的准确性和一致性,从而优化了各个领域的工作流程。
幕后故事:我们如何开发 Nemotron 模型
创建这些推理模型需要跨多个模型开发维度采用创新方法。
Nemotron 的开发基于成熟的 Llama 3.1 和 3.3 模型,采用了复杂的三阶段方法
阶段 1:基础模型优化
- 神经架构搜索 (NAS) 根据 NVIDIA 硬件优化了架构以实现最佳性能。
- 知识蒸馏压缩了更大的模型(例如,405B→253B,70B→49B,8B -> 4B),同时保留了功能。
- 这导致了硬件优化的参数数量,以实现最大性能。欲了解更多信息,请参阅Puzzle: Distillation-Based NAS for Inference-Optimized LLMs。
阶段 2:开发推理模式
- 对于“推理关闭”(通用任务),NVIDIA 精心策划的合成数据集增强了聊天、数学、代码和函数调用,并利用了 Llama 和 Qwen2.5 的见解。
- 对于“推理开启”,通过精心策划的DeepSeek-R1数据进行严格的质量验证,专门针对高级数学、代码和科学领域进行蒸馏。
- 两种模式同时训练,可通过系统提示切换。
阶段 3:针对对齐和交互进行微调
- 使用启发式验证器的 REINFORCE 算法增强了指令遵循和函数调用。
- 使用HelpSteer2的人类反馈强化学习 (RLHF) 使模型与自然对话模式保持一致。
- NVIDIA Llama 3.1 Nemotron 奖励模型提供了复杂的奖励信号。
实现突破性性能
Llama Nemotron 家族在行业标准基准测试中取得了卓越成果
- GPQA Diamond:Llama Nemotron Ultra 在这一具有挑战性的科学推理基准测试中达到了 76% 的准确率,超过了博士级专家平均 65% 的水平
- LiveCodeBench:在实际编程任务中表现出卓越的编码能力和稳健的性能
- AIME 数学推理:在高级数学问题解决方面在开放模型中处于领先地位
GPQA-Diamond、AIME2025、MATH500、BFCL、Arena Hard 基准测试的平均值,1x H100。250 个并发用户。ISL/OSL:500/2000。
这些模型的推理速度比其他领先的开放推理模型快 5 倍,同时比基础模型提高了 20% 的准确率
在 Hugging Face 上完全开放和可访问
秉承我们对开放创新的承诺,我们正在向 Hugging Face 社区及其他领域免费提供整个 Llama Nemotron 生态系统,包括
- 完整的模型家族:所有三种模型变体(Nano、Super、Ultra),包含完整的权重和配置,在Hugging Face上可用。
- 训练数据集:近 3000 万高质量样本,包括OpenCodeReasoning和Llama-Nemotron-Post-Training数据集。
- 训练方案:我们后期训练管道中使用的详细技术文档和方法可在本报告中查阅。
- NeMo 框架集成:完全支持使用 NVIDIA 的NeMo 框架进行定制,以构建特定领域的推理模型。
应用
Llama Nemotron 模型先进的推理能力在各行各业解锁了广泛的应用,实现了更智能、更自主、更高效的解决方案
- 物流与供应链:通过复杂的假设情景建模提高效率,例如中断期间的智能重新路由和优化复杂的配送网络。
- 科学研究:通过自动化假设生成、多步实验设计和复杂数据分析工作流程加速发现。
- 医疗保健:通过对患者数据、医学文献和临床指南进行系统推理,提高诊断准确性和治疗计划。
- 金融服务:为高级风险评估、算法交易策略和法规遵从自动化提供支持。
- 客户支持:通过对知识库、交易历史和服务协议进行推理,实现复杂客户问题的自主解决。
下一代 AI 工具包
Llama Nemotron 家族代表了迈向真正智能 AI 的重要一步,并为性能、效率和灵活性树立了新标准。借助开放权重、用于创建它们的数据集以及强大的 NVIDIA NeMo 框架,开发人员拥有完整的工具包来自定义这些模型并构建自己的模型。我们邀请您探索 Hugging Face 上的这些资源,并立即开始创新。
加入我们在巴黎举行的 GTC 大会
准备好体验 AI 推理的未来了吗?我们将在巴黎 GTC 大会上展示 Llama Nemotron 模型,包括现场演示、动手实验室、认证和深入的技术讲座。与我们的工程团队联系,探索实际应用,并发现这些模型如何改变您的 AI 应用。