AI Tools Radar
English
NVIDIA Nemotron 3 Ultra featured image with connected AI model nodes on AI Tools Radar

模型

NVIDIA Nemotron 3 Ultra(2026):550B智能体模型、基准测试与部署

Nemotron 3 Ultra(2026):550B开放智能体模型,百万上下文,基准测试,OpenRouter免费路由,以及何时自托管vs使用API。

AI Tools Radar Editorial 3 分钟阅读

NVIDIA于2026年6月4日发布了Nemotron 3 Ultra。这是一个550B参数的开放模型,55B活跃专家,为多步骤智能体而构建——规划、调用工具、生成子智能体,并在数百轮对话中保持上下文。本页面解释了什么变化了、基准测试数字的通俗含义,以及如何在不意外租用GPU集群的情况下试用它。

更广泛的2026年6月模型格局参见2026年AI模型对比。免费API路由参见OpenRouter免费模型(2026)

最后更新:2026年6月5日。发布于aitoolsradar.org

快速规格

规格Nemotron 3 Ultra (NVIDIA-Nemotron-3-Ultra-550B-A55B)
总参数550B(每token 55B活跃)
架构LatentMoE混合:Mamba-2 + MoE + 选择性注意力 + 多token预测(MTP)
上下文最高1M token(许多运行时默认256K,除非你提高限制)
精度NVFP4生产检查点;BF16研究变体
许可证OpenMDW-1.1
发布2026-06-04(build.nvidia.com + Hugging Face)
语言英语、法语、西班牙语、意大利语、德语、日语、韩语、印地语、巴西葡萄牙语、中文
最低自托管GPU4x B200 / GB200(NVFP4)或8x H100(按NVIDIA模型卡)
最适合智能体编排、长文档RAG、编程智能体、安全护栏
注意事项硬件成本、免费层级延迟、思考模式token开销

NVIDIA build.nvidia.com model card for Nemotron 3 Ultra 550B showing specs and deploy options

build.nvidia.com上Nemotron 3 Ultra的NVIDIA NIM模型卡。截图来自build.nvidia.com,2026年6月5日截取。UI可能变更。

Nemotron 3 Ultra存在的原因(一段话)

只回答一次的聊天机器人正在让位于运行数分钟或数小时的智能体。每一步都增加更多token:计划、工具JSON、stderr日志、检索文档和子智能体回复。NVIDIA的卖点不仅是”更聪明的回答”,而是更便宜的长任务:Ultra在工具密集的强化学习环境中进行后训练,使用MTP每步草拟多个token,并提供NVFP4使一个检查点在Hopper和Blackwell上运行,无需维护单独的权重文件。

它面向长时间智能体工作流,并在聊天模板中提供可配置的推理模式。

Nemotron 3系列:Ultra、Super、Nano和6月4日附加产品

Nemotron 3是一个系列,不是单个下载。

模型规模(总/活跃)角色
Nemotron 3 Ultra550B / 55B前沿编排、困难推理、百万上下文
Nemotron 3 Super120B / 12B更易托管的强大开放模型;常见的:free OpenRouter标识
Nemotron 3 Nano更小的边缘变体端侧和大流量路由
Nemotron 3.5 Content Safety4B护栏模型跨文本+图像的策略分类
Nemotron 3.5 ASR0.6B流式面向语音智能体的多语言语音识别

Nemotron 3 Super(120B)在同一系列中发布,更易于托管。将Ultra视为困难步骤的规划者,Super视为批量工具调用的主力,除非某个特定基准测试是你的唯一决策因素。

架构——不用术语墙

LatentMoE(混合专家,压缩版)

经典MoE模型将全宽向量路由到专家。LatentMoE在路由前将token投影到更小的潜在空间。NVIDIA声称在GPU网格上每字节移动的精度更好。你仍然获得550B总容量,但每token只有55B激活,这使得在少量Blackwell节点上推理变得可行。

Mamba-2 + 注意力混合

Mamba-2层高效处理长序列。注意力层放在需要精确回忆的地方(在百万token代码仓库中找到第17,482段的大海捞针式事实)。这种混合是NVIDIA在BF16模式下引用**RULER百万token达到94.7%**的原因:模型针对”找到第17,482段”这类任务进行了调优,而不仅仅是聊天润色。

多token预测(MTP)

MTP头在每次前向传播中预测多个未来token。训练使用共享权重设计;推理启用投机解码(vLLM nemotron_h_mtp,官方方案中使用五个草稿token)。通俗来说:生成长工具参数或代码块的智能体循环在启用MTP时每壁钟秒完成得更快。

NVFP4无处不在(安全的地方)

权重、激活和梯度在预训练期间在稳定的地方使用NVFP4。敏感层(嵌入、QKV、MTP)保持BF16或MXFP8。结果是一个NVFP4检查点,NVIDIA声称在Blackwell上以类似的交互性实现最高5倍吞吐量。这是厂商声明;务必对你自己的智能体框架进行基准测试。

思考模式

在聊天模板中设置enable_thinking=True。模型先输出一个推理过程,然后是面向用户的回答。智能体框架必须解析两个流(vLLM --reasoning-parser nemotron_v3)。对于不显示思维链的生产聊天UI,关闭思考以节省token。

基准测试(厂商表格,2026年6月)

我们没有重跑这些测试套件。数据来自build.nvidia.com模型卡NVIDIA技术博客。用它们来了解优势,而非加冕单一赢家。

领域基准测试Nemotron 3 Ultra (BF16)通俗含义
编程SWE-Bench Verified71.9%能端到端修复真实GitHub问题吗?
编程Terminal Bench 2.156.4%能像人类开发者一样驱动shell吗?
智能体PinchBench90.0%多工具生产力风格任务
智能体Tau-Bench v3(平均)70.9%客服风格工具模拟
知识GPQA(无工具)87.0%高难度科学多选题
长上下文RULER @ 1M94.7%百万token窗口中的检索
长上下文AA-LCR65.4%长文档聚合
指令IFBench81.7%遵循精细的提示约束

NVIDIA还发布了与GLM 5.1Kimi K2.6Qwen3.5在智能体生产力(PinchBench)和长上下文RULER上的竞争对比表。Ultra在多项智能体分数上领先或持平,同时宣传SWE-Bench Verified风格智能体任务更低的每完成任务成本。将跨厂商对比表视为发布营销,直到独立实验室复现。

谁应该使用Ultra vs Super vs封闭API

你是…可能的路径
测试想法的独立开发者OpenRouter nvidia/nemotron-3-ultra-550b-a55b:free或build.nvidia.com试玩场
发布智能体的初创公司Ultra用于规划步骤,Super用于批量工具调用,封闭模型作为后备
拥有Blackwell集群的企业使用vLLM或TensorRT-LLM教程自托管NVFP4
仅限本地的受监管机构下载权重+与法务一起审查OpenMDW许可证
需要最佳单次编程分数在你的仓库上做基准测试;Ultra很强但不总是第一名

今天如何试用(无需集群)

1. NVIDIA build.nvidia.com(最快的UI)

登录,打开Nemotron 3 Ultra模型页面,在托管试玩场中运行提示。适用NVIDIA API试用服务条款。

Hugging Face model page for NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4 with download stats and tags

Hugging Face上NVFP4 Ultra检查点的仓库。截图来自huggingface.co,2026年6月5日截取。下载量每日变化。

2. OpenRouter(API密钥,适配现有智能体)

将任何OpenAI兼容客户端路由到OpenRouter。模型标识:nvidia/nemotron-3-ultra-550b-a55b。在促销期间添加:free(参见我们的OpenRouter免费模型指南)。

OpenRouter catalog page for nvidia/nemotron-3-ultra-550b-a55b with pricing and context limits

OpenRouter上Nemotron 3 Ultra的列表。截图来自openrouter.ai,2026年6月5日截取。定价和上下文限制可能变更。

3. Hugging Face权重(自托管或微调)

主要生产工件:nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4。BF16基础模型和后训练数据集在NVIDIA的Nemotron v3集合中提供,用于可复现性。

4. 合作伙伴托管(首发列表)

NVIDIA的发布博客提到了Perplexity ProTogether AIFireworksBasetenModalCoreWeaveAmazon SageMaker JumpStartMicrosoft Foundry等。选择与你的合规区域和现有合同匹配的托管商。

自托管快照(仅限有经验的团队)

如果你管理裸金属服务器,从NVIDIA的vLLM v0.22.0容器方案开始:

  • 单节点: 4x B200,tensor parallel 4,启用expert parallel,FP8 KV缓存,MTP投机配置使用五个token。
  • 上下文: 默认方案使用256K max-model-len。仅在你确实需要1M且有足够内存时设置VLLM_ALLOW_LONG_MAX_MODEL_LEN=11048576
  • 工具调用: 按NVIDIA文档启用auto tool choice和qwen3_coder解析器(与几个中国开源模型同系列)。
  • 多节点: Ray head + workers,pipeline parallel 2,分布式执行后端ray

SGLang和TensorRT-LLM教程在同日发布,带有并行标志。除非你已经运行NeMo集群,否则不要从这里开始。先使用OpenRouter或NIM。

训练和开放性(为什么企业关心)

NVIDIA将Nemotron定位为开放权重+开放数据+开放配方

  • 预训练: 约20T token,NVFP4配方,在Hugging Face上公开的语料库。
  • SFT: 合成代码、数学、工具调用、长文档聚合数据集。
  • RL: 跨NeMo Gym环境的异步GRPO(数学、代码、多轮工具)。
  • MOPD: 来自10+领域教师的多教师在线策略蒸馏,教师对学生自身的rollout进行评分。

OpenMDW-1.1取代了旧的Nemotron许可文本,使法务团队对权重、代码和文档有统一的框架。如果你在私有数据上微调并重新分发适配器,这很重要。

NVIDIA强调的智能体框架

Ultra为框架多样性而训练,而非单一IDE:

  • Hermes AgentOpenClawOpenHandsCrewAILangChain Deep AgentsPiClineFactoryOpenCode等在2026年6月的文档中列出了Nemotron。
  • NemoClawOpenShell为常驻智能体捆绑了更安全的运行时方案(发布周早期预览)。

常见的生产模式:Ultra做规划,更小的模型执行bash或SQL,Ultra在合并前进行验证。这与团队使用Claude Opus搭配Haiku的方式类似,但编排器使用的是开放权重。

成本和延迟:“5倍吞吐量”和”30%更低任务成本”意味着什么

NVIDIA在Artificial Analysis风格图表(Blackwell端点)上引用了5倍输出速度vs其他开放前沿模型。另外,他们声称SWE-Bench Verified风格智能体任务约30%更低的完成成本,因为Ultra每轮使用更少的token。你的实际效果取决于:

  • 是否开启了思考模式。
  • 你的工具schema有多冗长。
  • vLLM中是否启用了MTP和FP8 KV缓存。
  • 同一GPU上的批量大小和并发智能体数。

用你真实的Jira工单做A/B测试,而不是演示提示。

Nemotron 3 Ultra vs Nemotron 3 Super

问题UltraSuper
参数量550B / 55B活跃120B / 12B活跃
上下文最高1M查看Super卡片(多数托管方较短)
托管数据中心Blackwell级更少GPU即可行;流行的:free路由
最佳适配编排、百万RAG、最难的智能体步骤日常工具调用、更便宜的API、本地实验

如果你只需要快速分类或浅层工具调用,Super是经济默认。Ultra适用于智能体需要在五十个前序步骤中保持架构决策的场景。

局限性和坦诚的注意事项

  • 硬件门槛: 不存在”在游戏GPU上运行Ultra”的现实路径。除非你运营Blackwell机架,否则规划云API。
  • 免费层级有限制: OpenRouter :free模型可能排队或限速。不要仅在免费路由上对SLA敏感的生产流程做基准测试。
  • 银行模拟弱点: NVIDIA自己表中的Tau-Bench银行分数很低(约22%)。不要在没有私有评估的情况下假设金融智能体就绪。
  • 许可证仍然较新: OpenMDW比许多自定义许可证更清晰,但你的合规团队仍须批准重新分发。
  • 基准测试营销: 发布周表格会挑选有利的测试框架。在你的技术栈上复现。

同日发布的兄弟产品:安全和语音

6月4日还发布了Nemotron 3.5 Content Safety(4B,23个类别,12种语言)和Nemotron 3.5 ASR(40+种语言,亚100ms流式)。Ultra不能替代它们。将Safety用作Ultra前面的护栏模型,ASR用于构建语音原生智能体。

结论

Nemotron 3 Ultra是NVIDIA的开放赌注:智能体编排需要一个你可以托管、微调和审计的前沿模型,具备百万上下文NVFP4在Blackwell上的速度。它不是廉价的日常驾驭。将它与Nemotron 3 Super、OpenRouter免费路由或你现有的封闭API搭配用于日常工作。

先试用: build.nvidia.com试玩场或OpenRouter免费标识。自托管时机: 你已经运行4x B200且需要数据驻留。跳过时机: 你只需要IDE中的内联代码补全,没有智能体循环。


更新日志

  • 2026-06-05: 首次发布。基准测试、API和OpenRouter访问,以及何时自托管vs使用Nemotron 3 Super。

常见问题

8 个问题
NVIDIA Nemotron 3 Ultra是什么?

Nemotron 3 Ultra是NVIDIA于2026年6月4日发布的前沿开放模型。总参数550亿,每次前向传播活跃55亿(混合专家架构)。面向长时间运行的智能体、工具使用、编程和最高百万token上下文的推理。权重、训练数据和配方在OpenMDW-1.1许可下发布。

Nemotron 3 Ultra是免费的吗?

你可以在build.nvidia.com(适用试用条款)和OpenRouter上使用nvidia/nemotron-3-ultra-550b-a55b:free标识免费试用,前提是NVIDIA的促销活动仍在进行。自托管不是免费的。NVFP4检查点大约需要四张B200 GPU或八张H100。

Nemotron 3 Ultra与Nemotron 3 Super相比如何?

Ultra是550B编排模型,用于困难的智能体步骤和长上下文。Super是120B的兄弟模型(12B活跃),更便宜、更容易本地托管或在单个高端节点上运行。许多团队将简单的工具调用路由到Super,将困难的规划路由到Ultra。

本地运行Nemotron 3 Ultra需要什么硬件?

NVIDIA列出的最低配置为4x GB200、4x B200、4x GB300、4x B300或8x H100,用于NVFP4权重加KV缓存。单节点vLLM方案针对4x B200。超出此范围建议使用多节点Ray设置。

Nemotron 3 Ultra支持思考模式吗?

支持。聊天模板暴露enable_thinking=True或False。开启思考后,模型在最终回答前输出推理过程。vLLM等智能体主机使用nemotron_v3推理解析器。关闭思考可获得更快的聊天风格回复。

在哪里可以下载Nemotron 3 Ultra的权重?

Hugging Face托管BF16和NVFP4检查点,包括nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4用于生产推理。NVIDIA还在GitHub上发布了基础模型、后训练数据集和NeMo教程。

Nemotron 3 Ultra适合编程智能体吗?

NVIDIA报告在SWE-Bench Verified上达到71.9%(BF16),在Terminal Bench 2.1上达到56.4%。对于开放权重模型来说这很强,尽管一些竞品在原始编程排行榜上得分更高。Ultra的卖点是每个智能体轮次使用更少的token和更好的长期规划,而不仅仅是原始补丁准确率。

Nemotron 3 Ultra与Claude或GPT在智能体方面的对比?

封闭模型在许多单次编程基准测试中仍然胜出。Ultra面向的是想要开放权重、本地部署,或前沿编排加廉价工作模型混合方案的团队。将Ultra用于困难步骤,Nemotron 3 Super或其他小模型用于批量工具调用以控制成本。

更多模型

查看全部