NVIDIA Nemotron 3 Ultra featured image with connected AI model nodes on AI Tools Radar

模型

NVIDIA Nemotron 3 Ultra（2026）：550B智能体模型、基准测试与部署

Nemotron 3 Ultra（2026）：550B开放智能体模型，百万上下文，基准测试，OpenRouter免费路由，以及何时自托管vs使用API。

AI Tools Radar Editorial 2026年6月5日更新于 2026年6月5日 3 分钟阅读

NVIDIA于2026年6月4日发布了Nemotron 3 Ultra。这是一个550B参数的开放模型，55B活跃专家，为多步骤智能体而构建——规划、调用工具、生成子智能体，并在数百轮对话中保持上下文。本页面解释了什么变化了、基准测试数字的通俗含义，以及如何在不意外租用GPU集群的情况下试用它。

更广泛的2026年6月模型格局参见2026年AI模型对比。免费API路由参见OpenRouter免费模型（2026）。

最后更新：2026年6月5日。发布于aitoolsradar.org。

快速规格

规格	Nemotron 3 Ultra (`NVIDIA-Nemotron-3-Ultra-550B-A55B`)
总参数	550B（每token 55B活跃）
架构	LatentMoE混合：Mamba-2 + MoE + 选择性注意力 + 多token预测（MTP）
上下文	最高1M token（许多运行时默认256K，除非你提高限制）
精度	NVFP4生产检查点；BF16研究变体
许可证	OpenMDW-1.1
发布	2026-06-04（build.nvidia.com + Hugging Face）
语言	英语、法语、西班牙语、意大利语、德语、日语、韩语、印地语、巴西葡萄牙语、中文
最低自托管GPU	4x B200 / GB200（NVFP4）或8x H100（按NVIDIA模型卡）
最适合	智能体编排、长文档RAG、编程智能体、安全护栏
注意事项	硬件成本、免费层级延迟、思考模式token开销

NVIDIA build.nvidia.com model card for Nemotron 3 Ultra 550B showing specs and deploy options — build.nvidia.com上Nemotron 3 Ultra的NVIDIA NIM模型卡。截图来自build.nvidia.com，2026年6月5日截取。UI可能变更。

Nemotron 3 Ultra存在的原因（一段话）

只回答一次的聊天机器人正在让位于运行数分钟或数小时的智能体。每一步都增加更多token：计划、工具JSON、stderr日志、检索文档和子智能体回复。NVIDIA的卖点不仅是”更聪明的回答”，而是更便宜的长任务：Ultra在工具密集的强化学习环境中进行后训练，使用MTP每步草拟多个token，并提供NVFP4使一个检查点在Hopper和Blackwell上运行，无需维护单独的权重文件。

它面向长时间智能体工作流，并在聊天模板中提供可配置的推理模式。

Nemotron 3系列：Ultra、Super、Nano和6月4日附加产品

Nemotron 3是一个系列，不是单个下载。

模型	规模（总/活跃）	角色
Nemotron 3 Ultra	550B / 55B	前沿编排、困难推理、百万上下文
Nemotron 3 Super	120B / 12B	更易托管的强大开放模型；常见的`:free` OpenRouter标识
Nemotron 3 Nano	更小的边缘变体	端侧和大流量路由
Nemotron 3.5 Content Safety	4B护栏模型	跨文本+图像的策略分类
Nemotron 3.5 ASR	0.6B流式	面向语音智能体的多语言语音识别

Nemotron 3 Super（120B）在同一系列中发布，更易于托管。将Ultra视为困难步骤的规划者，Super视为批量工具调用的主力，除非某个特定基准测试是你的唯一决策因素。

架构——不用术语墙

LatentMoE（混合专家，压缩版）

经典MoE模型将全宽向量路由到专家。LatentMoE在路由前将token投影到更小的潜在空间。NVIDIA声称在GPU网格上每字节移动的精度更好。你仍然获得550B总容量，但每token只有55B激活，这使得在少量Blackwell节点上推理变得可行。

Mamba-2 + 注意力混合

Mamba-2层高效处理长序列。注意力层放在需要精确回忆的地方（在百万token代码仓库中找到第17,482段的大海捞针式事实）。这种混合是NVIDIA在BF16模式下引用**RULER百万token达到94.7%**的原因：模型针对”找到第17,482段”这类任务进行了调优，而不仅仅是聊天润色。

多token预测（MTP）

MTP头在每次前向传播中预测多个未来token。训练使用共享权重设计；推理启用投机解码（vLLM nemotron_h_mtp，官方方案中使用五个草稿token）。通俗来说：生成长工具参数或代码块的智能体循环在启用MTP时每壁钟秒完成得更快。

NVFP4无处不在（安全的地方）

权重、激活和梯度在预训练期间在稳定的地方使用NVFP4。敏感层（嵌入、QKV、MTP）保持BF16或MXFP8。结果是一个NVFP4检查点，NVIDIA声称在Blackwell上以类似的交互性实现最高5倍吞吐量。这是厂商声明；务必对你自己的智能体框架进行基准测试。

思考模式

在聊天模板中设置enable_thinking=True。模型先输出一个推理过程，然后是面向用户的回答。智能体框架必须解析两个流（vLLM --reasoning-parser nemotron_v3）。对于不显示思维链的生产聊天UI，关闭思考以节省token。

基准测试（厂商表格，2026年6月）

我们没有重跑这些测试套件。数据来自build.nvidia.com模型卡和NVIDIA技术博客。用它们来了解优势，而非加冕单一赢家。

领域	基准测试	Nemotron 3 Ultra (BF16)	通俗含义
编程	SWE-Bench Verified	71.9%	能端到端修复真实GitHub问题吗？
编程	Terminal Bench 2.1	56.4%	能像人类开发者一样驱动shell吗？
智能体	PinchBench	90.0%	多工具生产力风格任务
智能体	Tau-Bench v3（平均）	70.9%	客服风格工具模拟
知识	GPQA（无工具）	87.0%	高难度科学多选题
长上下文	RULER @ 1M	94.7%	百万token窗口中的检索
长上下文	AA-LCR	65.4%	长文档聚合
指令	IFBench	81.7%	遵循精细的提示约束

NVIDIA还发布了与GLM 5.1、Kimi K2.6和Qwen3.5在智能体生产力（PinchBench）和长上下文RULER上的竞争对比表。Ultra在多项智能体分数上领先或持平，同时宣传SWE-Bench Verified风格智能体任务更低的每完成任务成本。将跨厂商对比表视为发布营销，直到独立实验室复现。

谁应该使用Ultra vs Super vs封闭API

你是…	可能的路径
测试想法的独立开发者	OpenRouter `nvidia/nemotron-3-ultra-550b-a55b:free`或build.nvidia.com试玩场
发布智能体的初创公司	Ultra用于规划步骤，Super用于批量工具调用，封闭模型作为后备
拥有Blackwell集群的企业	使用vLLM或TensorRT-LLM教程自托管NVFP4
仅限本地的受监管机构	下载权重+与法务一起审查OpenMDW许可证
需要最佳单次编程分数	在你的仓库上做基准测试；Ultra很强但不总是第一名

今天如何试用（无需集群）

1. NVIDIA build.nvidia.com（最快的UI）

Hugging Face model page for NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4 with download stats and tags — Hugging Face上NVFP4 Ultra检查点的仓库。截图来自huggingface.co，2026年6月5日截取。下载量每日变化。

2. OpenRouter（API密钥，适配现有智能体）

将任何OpenAI兼容客户端路由到OpenRouter。模型标识：nvidia/nemotron-3-ultra-550b-a55b。在促销期间添加:free（参见我们的OpenRouter免费模型指南）。

OpenRouter catalog page for nvidia/nemotron-3-ultra-550b-a55b with pricing and context limits — OpenRouter上Nemotron 3 Ultra的列表。截图来自openrouter.ai，2026年6月5日截取。定价和上下文限制可能变更。

3. Hugging Face权重（自托管或微调）

主要生产工件：nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4。BF16基础模型和后训练数据集在NVIDIA的Nemotron v3集合中提供，用于可复现性。

4. 合作伙伴托管（首发列表）

NVIDIA的发布博客提到了Perplexity Pro、Together AI、Fireworks、Baseten、Modal、CoreWeave、Amazon SageMaker JumpStart、Microsoft Foundry等。选择与你的合规区域和现有合同匹配的托管商。

自托管快照（仅限有经验的团队）

如果你管理裸金属服务器，从NVIDIA的vLLM v0.22.0容器方案开始：

单节点： 4x B200，tensor parallel 4，启用expert parallel，FP8 KV缓存，MTP投机配置使用五个token。
上下文： 默认方案使用256K max-model-len。仅在你确实需要1M且有足够内存时设置VLLM_ALLOW_LONG_MAX_MODEL_LEN=1和1048576。
工具调用： 按NVIDIA文档启用auto tool choice和qwen3_coder解析器（与几个中国开源模型同系列）。
多节点： Ray head + workers，pipeline parallel 2，分布式执行后端ray。

SGLang和TensorRT-LLM教程在同日发布，带有并行标志。除非你已经运行NeMo集群，否则不要从这里开始。先使用OpenRouter或NIM。

训练和开放性（为什么企业关心）

NVIDIA将Nemotron定位为开放权重+开放数据+开放配方：

预训练： 约20T token，NVFP4配方，在Hugging Face上公开的语料库。
SFT： 合成代码、数学、工具调用、长文档聚合数据集。
RL： 跨NeMo Gym环境的异步GRPO（数学、代码、多轮工具）。
MOPD： 来自10+领域教师的多教师在线策略蒸馏，教师对学生自身的rollout进行评分。

OpenMDW-1.1取代了旧的Nemotron许可文本，使法务团队对权重、代码和文档有统一的框架。如果你在私有数据上微调并重新分发适配器，这很重要。

NVIDIA强调的智能体框架

Ultra为框架多样性而训练，而非单一IDE：

Hermes Agent、OpenClaw、OpenHands、CrewAI、LangChain Deep Agents、Pi、Cline、Factory、OpenCode等在2026年6月的文档中列出了Nemotron。
NemoClaw加OpenShell为常驻智能体捆绑了更安全的运行时方案（发布周早期预览）。

常见的生产模式：Ultra做规划，更小的模型执行bash或SQL，Ultra在合并前进行验证。这与团队使用Claude Opus搭配Haiku的方式类似，但编排器使用的是开放权重。

成本和延迟：“5倍吞吐量”和”30%更低任务成本”意味着什么

NVIDIA在Artificial Analysis风格图表（Blackwell端点）上引用了5倍输出速度vs其他开放前沿模型。另外，他们声称SWE-Bench Verified风格智能体任务约30%更低的完成成本，因为Ultra每轮使用更少的token。你的实际效果取决于：

是否开启了思考模式。
你的工具schema有多冗长。
vLLM中是否启用了MTP和FP8 KV缓存。
同一GPU上的批量大小和并发智能体数。

用你真实的Jira工单做A/B测试，而不是演示提示。

Nemotron 3 Ultra vs Nemotron 3 Super

问题	Ultra	Super
参数量	550B / 55B活跃	120B / 12B活跃
上下文	最高1M	查看Super卡片（多数托管方较短）
托管	数据中心Blackwell级	更少GPU即可行；流行的`:free`路由
最佳适配	编排、百万RAG、最难的智能体步骤	日常工具调用、更便宜的API、本地实验

如果你只需要快速分类或浅层工具调用，Super是经济默认。Ultra适用于智能体需要在五十个前序步骤中保持架构决策的场景。

局限性和坦诚的注意事项

硬件门槛： 不存在”在游戏GPU上运行Ultra”的现实路径。除非你运营Blackwell机架，否则规划云API。
免费层级有限制： OpenRouter :free模型可能排队或限速。不要仅在免费路由上对SLA敏感的生产流程做基准测试。
银行模拟弱点： NVIDIA自己表中的Tau-Bench银行分数很低（约22%）。不要在没有私有评估的情况下假设金融智能体就绪。
许可证仍然较新： OpenMDW比许多自定义许可证更清晰，但你的合规团队仍须批准重新分发。
基准测试营销： 发布周表格会挑选有利的测试框架。在你的技术栈上复现。

同日发布的兄弟产品：安全和语音

6月4日还发布了Nemotron 3.5 Content Safety（4B，23个类别，12种语言）和Nemotron 3.5 ASR（40+种语言，亚100ms流式）。Ultra不能替代它们。将Safety用作Ultra前面的护栏模型，ASR用于构建语音原生智能体。

结论

Nemotron 3 Ultra是NVIDIA的开放赌注：智能体编排需要一个你可以托管、微调和审计的前沿模型，具备百万上下文和NVFP4在Blackwell上的速度。它不是廉价的日常驾驭。将它与Nemotron 3 Super、OpenRouter免费路由或你现有的封闭API搭配用于日常工作。

先试用： build.nvidia.com试玩场或OpenRouter免费标识。自托管时机： 你已经运行4x B200且需要数据驻留。跳过时机： 你只需要IDE中的内联代码补全，没有智能体循环。

更新日志

2026-06-05： 首次发布。基准测试、API和OpenRouter访问，以及何时自托管vs使用Nemotron 3 Super。

常见问题

8 个问题

NVIDIA Nemotron 3 Ultra是什么？

Nemotron 3 Ultra是NVIDIA于2026年6月4日发布的前沿开放模型。总参数550亿，每次前向传播活跃55亿（混合专家架构）。面向长时间运行的智能体、工具使用、编程和最高百万token上下文的推理。权重、训练数据和配方在OpenMDW-1.1许可下发布。

Nemotron 3 Ultra是免费的吗？

你可以在build.nvidia.com（适用试用条款）和OpenRouter上使用nvidia/nemotron-3-ultra-550b-a55b:free标识免费试用，前提是NVIDIA的促销活动仍在进行。自托管不是免费的。NVFP4检查点大约需要四张B200 GPU或八张H100。

Nemotron 3 Ultra与Nemotron 3 Super相比如何？

Ultra是550B编排模型，用于困难的智能体步骤和长上下文。Super是120B的兄弟模型（12B活跃），更便宜、更容易本地托管或在单个高端节点上运行。许多团队将简单的工具调用路由到Super，将困难的规划路由到Ultra。

本地运行Nemotron 3 Ultra需要什么硬件？

NVIDIA列出的最低配置为4x GB200、4x B200、4x GB300、4x B300或8x H100，用于NVFP4权重加KV缓存。单节点vLLM方案针对4x B200。超出此范围建议使用多节点Ray设置。

Nemotron 3 Ultra支持思考模式吗？

支持。聊天模板暴露enable_thinking=True或False。开启思考后，模型在最终回答前输出推理过程。vLLM等智能体主机使用nemotron_v3推理解析器。关闭思考可获得更快的聊天风格回复。

在哪里可以下载Nemotron 3 Ultra的权重？

Hugging Face托管BF16和NVFP4检查点，包括nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4用于生产推理。NVIDIA还在GitHub上发布了基础模型、后训练数据集和NeMo教程。

Nemotron 3 Ultra适合编程智能体吗？

NVIDIA报告在SWE-Bench Verified上达到71.9%（BF16），在Terminal Bench 2.1上达到56.4%。对于开放权重模型来说这很强，尽管一些竞品在原始编程排行榜上得分更高。Ultra的卖点是每个智能体轮次使用更少的token和更好的长期规划，而不仅仅是原始补丁准确率。

Nemotron 3 Ultra与Claude或GPT在智能体方面的对比？

封闭模型在许多单次编程基准测试中仍然胜出。Ultra面向的是想要开放权重、本地部署，或前沿编排加廉价工作模型混合方案的团队。将Ultra用于困难步骤，Nemotron 3 Super或其他小模型用于批量工具调用以控制成本。