模型
NVIDIA Nemotron 3 Ultra(2026):550B智能体模型、基准测试与部署
Nemotron 3 Ultra(2026):550B开放智能体模型,百万上下文,基准测试,OpenRouter免费路由,以及何时自托管vs使用API。
NVIDIA于2026年6月4日发布了Nemotron 3 Ultra。这是一个550B参数的开放模型,55B活跃专家,为多步骤智能体而构建——规划、调用工具、生成子智能体,并在数百轮对话中保持上下文。本页面解释了什么变化了、基准测试数字的通俗含义,以及如何在不意外租用GPU集群的情况下试用它。
更广泛的2026年6月模型格局参见2026年AI模型对比。免费API路由参见OpenRouter免费模型(2026)。
最后更新:2026年6月5日。发布于aitoolsradar.org。
快速规格
| 规格 | Nemotron 3 Ultra (NVIDIA-Nemotron-3-Ultra-550B-A55B) |
|---|---|
| 总参数 | 550B(每token 55B活跃) |
| 架构 | LatentMoE混合:Mamba-2 + MoE + 选择性注意力 + 多token预测(MTP) |
| 上下文 | 最高1M token(许多运行时默认256K,除非你提高限制) |
| 精度 | NVFP4生产检查点;BF16研究变体 |
| 许可证 | OpenMDW-1.1 |
| 发布 | 2026-06-04(build.nvidia.com + Hugging Face) |
| 语言 | 英语、法语、西班牙语、意大利语、德语、日语、韩语、印地语、巴西葡萄牙语、中文 |
| 最低自托管GPU | 4x B200 / GB200(NVFP4)或8x H100(按NVIDIA模型卡) |
| 最适合 | 智能体编排、长文档RAG、编程智能体、安全护栏 |
| 注意事项 | 硬件成本、免费层级延迟、思考模式token开销 |

Nemotron 3 Ultra存在的原因(一段话)
只回答一次的聊天机器人正在让位于运行数分钟或数小时的智能体。每一步都增加更多token:计划、工具JSON、stderr日志、检索文档和子智能体回复。NVIDIA的卖点不仅是”更聪明的回答”,而是更便宜的长任务:Ultra在工具密集的强化学习环境中进行后训练,使用MTP每步草拟多个token,并提供NVFP4使一个检查点在Hopper和Blackwell上运行,无需维护单独的权重文件。
它面向长时间智能体工作流,并在聊天模板中提供可配置的推理模式。
Nemotron 3系列:Ultra、Super、Nano和6月4日附加产品
Nemotron 3是一个系列,不是单个下载。
| 模型 | 规模(总/活跃) | 角色 |
|---|---|---|
| Nemotron 3 Ultra | 550B / 55B | 前沿编排、困难推理、百万上下文 |
| Nemotron 3 Super | 120B / 12B | 更易托管的强大开放模型;常见的:free OpenRouter标识 |
| Nemotron 3 Nano | 更小的边缘变体 | 端侧和大流量路由 |
| Nemotron 3.5 Content Safety | 4B护栏模型 | 跨文本+图像的策略分类 |
| Nemotron 3.5 ASR | 0.6B流式 | 面向语音智能体的多语言语音识别 |
Nemotron 3 Super(120B)在同一系列中发布,更易于托管。将Ultra视为困难步骤的规划者,Super视为批量工具调用的主力,除非某个特定基准测试是你的唯一决策因素。
架构——不用术语墙
LatentMoE(混合专家,压缩版)
经典MoE模型将全宽向量路由到专家。LatentMoE在路由前将token投影到更小的潜在空间。NVIDIA声称在GPU网格上每字节移动的精度更好。你仍然获得550B总容量,但每token只有55B激活,这使得在少量Blackwell节点上推理变得可行。
Mamba-2 + 注意力混合
Mamba-2层高效处理长序列。注意力层放在需要精确回忆的地方(在百万token代码仓库中找到第17,482段的大海捞针式事实)。这种混合是NVIDIA在BF16模式下引用**RULER百万token达到94.7%**的原因:模型针对”找到第17,482段”这类任务进行了调优,而不仅仅是聊天润色。
多token预测(MTP)
MTP头在每次前向传播中预测多个未来token。训练使用共享权重设计;推理启用投机解码(vLLM nemotron_h_mtp,官方方案中使用五个草稿token)。通俗来说:生成长工具参数或代码块的智能体循环在启用MTP时每壁钟秒完成得更快。
NVFP4无处不在(安全的地方)
权重、激活和梯度在预训练期间在稳定的地方使用NVFP4。敏感层(嵌入、QKV、MTP)保持BF16或MXFP8。结果是一个NVFP4检查点,NVIDIA声称在Blackwell上以类似的交互性实现最高5倍吞吐量。这是厂商声明;务必对你自己的智能体框架进行基准测试。
思考模式
在聊天模板中设置enable_thinking=True。模型先输出一个推理过程,然后是面向用户的回答。智能体框架必须解析两个流(vLLM --reasoning-parser nemotron_v3)。对于不显示思维链的生产聊天UI,关闭思考以节省token。
基准测试(厂商表格,2026年6月)
我们没有重跑这些测试套件。数据来自build.nvidia.com模型卡和NVIDIA技术博客。用它们来了解优势,而非加冕单一赢家。
| 领域 | 基准测试 | Nemotron 3 Ultra (BF16) | 通俗含义 |
|---|---|---|---|
| 编程 | SWE-Bench Verified | 71.9% | 能端到端修复真实GitHub问题吗? |
| 编程 | Terminal Bench 2.1 | 56.4% | 能像人类开发者一样驱动shell吗? |
| 智能体 | PinchBench | 90.0% | 多工具生产力风格任务 |
| 智能体 | Tau-Bench v3(平均) | 70.9% | 客服风格工具模拟 |
| 知识 | GPQA(无工具) | 87.0% | 高难度科学多选题 |
| 长上下文 | RULER @ 1M | 94.7% | 百万token窗口中的检索 |
| 长上下文 | AA-LCR | 65.4% | 长文档聚合 |
| 指令 | IFBench | 81.7% | 遵循精细的提示约束 |
NVIDIA还发布了与GLM 5.1、Kimi K2.6和Qwen3.5在智能体生产力(PinchBench)和长上下文RULER上的竞争对比表。Ultra在多项智能体分数上领先或持平,同时宣传SWE-Bench Verified风格智能体任务更低的每完成任务成本。将跨厂商对比表视为发布营销,直到独立实验室复现。
谁应该使用Ultra vs Super vs封闭API
| 你是… | 可能的路径 |
|---|---|
| 测试想法的独立开发者 | OpenRouter nvidia/nemotron-3-ultra-550b-a55b:free或build.nvidia.com试玩场 |
| 发布智能体的初创公司 | Ultra用于规划步骤,Super用于批量工具调用,封闭模型作为后备 |
| 拥有Blackwell集群的企业 | 使用vLLM或TensorRT-LLM教程自托管NVFP4 |
| 仅限本地的受监管机构 | 下载权重+与法务一起审查OpenMDW许可证 |
| 需要最佳单次编程分数 | 在你的仓库上做基准测试;Ultra很强但不总是第一名 |
今天如何试用(无需集群)
1. NVIDIA build.nvidia.com(最快的UI)
登录,打开Nemotron 3 Ultra模型页面,在托管试玩场中运行提示。适用NVIDIA API试用服务条款。

2. OpenRouter(API密钥,适配现有智能体)
将任何OpenAI兼容客户端路由到OpenRouter。模型标识:nvidia/nemotron-3-ultra-550b-a55b。在促销期间添加:free(参见我们的OpenRouter免费模型指南)。

3. Hugging Face权重(自托管或微调)
主要生产工件:nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4。BF16基础模型和后训练数据集在NVIDIA的Nemotron v3集合中提供,用于可复现性。
4. 合作伙伴托管(首发列表)
NVIDIA的发布博客提到了Perplexity Pro、Together AI、Fireworks、Baseten、Modal、CoreWeave、Amazon SageMaker JumpStart、Microsoft Foundry等。选择与你的合规区域和现有合同匹配的托管商。
自托管快照(仅限有经验的团队)
如果你管理裸金属服务器,从NVIDIA的vLLM v0.22.0容器方案开始:
- 单节点: 4x B200,tensor parallel 4,启用expert parallel,FP8 KV缓存,MTP投机配置使用五个token。
- 上下文: 默认方案使用256K
max-model-len。仅在你确实需要1M且有足够内存时设置VLLM_ALLOW_LONG_MAX_MODEL_LEN=1和1048576。 - 工具调用: 按NVIDIA文档启用auto tool choice和
qwen3_coder解析器(与几个中国开源模型同系列)。 - 多节点: Ray head + workers,pipeline parallel 2,分布式执行后端
ray。
SGLang和TensorRT-LLM教程在同日发布,带有并行标志。除非你已经运行NeMo集群,否则不要从这里开始。先使用OpenRouter或NIM。
训练和开放性(为什么企业关心)
NVIDIA将Nemotron定位为开放权重+开放数据+开放配方:
- 预训练: 约20T token,NVFP4配方,在Hugging Face上公开的语料库。
- SFT: 合成代码、数学、工具调用、长文档聚合数据集。
- RL: 跨NeMo Gym环境的异步GRPO(数学、代码、多轮工具)。
- MOPD: 来自10+领域教师的多教师在线策略蒸馏,教师对学生自身的rollout进行评分。
OpenMDW-1.1取代了旧的Nemotron许可文本,使法务团队对权重、代码和文档有统一的框架。如果你在私有数据上微调并重新分发适配器,这很重要。
NVIDIA强调的智能体框架
Ultra为框架多样性而训练,而非单一IDE:
- Hermes Agent、OpenClaw、OpenHands、CrewAI、LangChain Deep Agents、Pi、Cline、Factory、OpenCode等在2026年6月的文档中列出了Nemotron。
- NemoClaw加OpenShell为常驻智能体捆绑了更安全的运行时方案(发布周早期预览)。
常见的生产模式:Ultra做规划,更小的模型执行bash或SQL,Ultra在合并前进行验证。这与团队使用Claude Opus搭配Haiku的方式类似,但编排器使用的是开放权重。
成本和延迟:“5倍吞吐量”和”30%更低任务成本”意味着什么
NVIDIA在Artificial Analysis风格图表(Blackwell端点)上引用了5倍输出速度vs其他开放前沿模型。另外,他们声称SWE-Bench Verified风格智能体任务约30%更低的完成成本,因为Ultra每轮使用更少的token。你的实际效果取决于:
- 是否开启了思考模式。
- 你的工具schema有多冗长。
- vLLM中是否启用了MTP和FP8 KV缓存。
- 同一GPU上的批量大小和并发智能体数。
用你真实的Jira工单做A/B测试,而不是演示提示。
Nemotron 3 Ultra vs Nemotron 3 Super
| 问题 | Ultra | Super |
|---|---|---|
| 参数量 | 550B / 55B活跃 | 120B / 12B活跃 |
| 上下文 | 最高1M | 查看Super卡片(多数托管方较短) |
| 托管 | 数据中心Blackwell级 | 更少GPU即可行;流行的:free路由 |
| 最佳适配 | 编排、百万RAG、最难的智能体步骤 | 日常工具调用、更便宜的API、本地实验 |
如果你只需要快速分类或浅层工具调用,Super是经济默认。Ultra适用于智能体需要在五十个前序步骤中保持架构决策的场景。
局限性和坦诚的注意事项
- 硬件门槛: 不存在”在游戏GPU上运行Ultra”的现实路径。除非你运营Blackwell机架,否则规划云API。
- 免费层级有限制: OpenRouter
:free模型可能排队或限速。不要仅在免费路由上对SLA敏感的生产流程做基准测试。 - 银行模拟弱点: NVIDIA自己表中的Tau-Bench银行分数很低(约22%)。不要在没有私有评估的情况下假设金融智能体就绪。
- 许可证仍然较新: OpenMDW比许多自定义许可证更清晰,但你的合规团队仍须批准重新分发。
- 基准测试营销: 发布周表格会挑选有利的测试框架。在你的技术栈上复现。
同日发布的兄弟产品:安全和语音
6月4日还发布了Nemotron 3.5 Content Safety(4B,23个类别,12种语言)和Nemotron 3.5 ASR(40+种语言,亚100ms流式)。Ultra不能替代它们。将Safety用作Ultra前面的护栏模型,ASR用于构建语音原生智能体。
结论
Nemotron 3 Ultra是NVIDIA的开放赌注:智能体编排需要一个你可以托管、微调和审计的前沿模型,具备百万上下文和NVFP4在Blackwell上的速度。它不是廉价的日常驾驭。将它与Nemotron 3 Super、OpenRouter免费路由或你现有的封闭API搭配用于日常工作。
先试用: build.nvidia.com试玩场或OpenRouter免费标识。自托管时机: 你已经运行4x B200且需要数据驻留。跳过时机: 你只需要IDE中的内联代码补全,没有智能体循环。
更新日志
- 2026-06-05: 首次发布。基准测试、API和OpenRouter访问,以及何时自托管vs使用Nemotron 3 Super。
常见问题
8 个问题NVIDIA Nemotron 3 Ultra是什么?
Nemotron 3 Ultra是NVIDIA于2026年6月4日发布的前沿开放模型。总参数550亿,每次前向传播活跃55亿(混合专家架构)。面向长时间运行的智能体、工具使用、编程和最高百万token上下文的推理。权重、训练数据和配方在OpenMDW-1.1许可下发布。
Nemotron 3 Ultra是免费的吗?
你可以在build.nvidia.com(适用试用条款)和OpenRouter上使用nvidia/nemotron-3-ultra-550b-a55b:free标识免费试用,前提是NVIDIA的促销活动仍在进行。自托管不是免费的。NVFP4检查点大约需要四张B200 GPU或八张H100。
Nemotron 3 Ultra与Nemotron 3 Super相比如何?
Ultra是550B编排模型,用于困难的智能体步骤和长上下文。Super是120B的兄弟模型(12B活跃),更便宜、更容易本地托管或在单个高端节点上运行。许多团队将简单的工具调用路由到Super,将困难的规划路由到Ultra。
本地运行Nemotron 3 Ultra需要什么硬件?
NVIDIA列出的最低配置为4x GB200、4x B200、4x GB300、4x B300或8x H100,用于NVFP4权重加KV缓存。单节点vLLM方案针对4x B200。超出此范围建议使用多节点Ray设置。
Nemotron 3 Ultra支持思考模式吗?
支持。聊天模板暴露enable_thinking=True或False。开启思考后,模型在最终回答前输出推理过程。vLLM等智能体主机使用nemotron_v3推理解析器。关闭思考可获得更快的聊天风格回复。
在哪里可以下载Nemotron 3 Ultra的权重?
Hugging Face托管BF16和NVFP4检查点,包括nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4用于生产推理。NVIDIA还在GitHub上发布了基础模型、后训练数据集和NeMo教程。
Nemotron 3 Ultra适合编程智能体吗?
NVIDIA报告在SWE-Bench Verified上达到71.9%(BF16),在Terminal Bench 2.1上达到56.4%。对于开放权重模型来说这很强,尽管一些竞品在原始编程排行榜上得分更高。Ultra的卖点是每个智能体轮次使用更少的token和更好的长期规划,而不仅仅是原始补丁准确率。
Nemotron 3 Ultra与Claude或GPT在智能体方面的对比?
封闭模型在许多单次编程基准测试中仍然胜出。Ultra面向的是想要开放权重、本地部署,或前沿编排加廉价工作模型混合方案的团队。将Ultra用于困难步骤,Nemotron 3 Super或其他小模型用于批量工具调用以控制成本。
更多模型
查看全部
GLM-5.2:开源前沿模型,百万上下文、基准测试与本地部署指南(2026)
GLM-5.2 是智谱 AI 推出的 744B 开源权重模型,MIT 许可证。基准测试、定价、vLLM 和 llama.cpp 本地部署,以及与 Claude Opus 4.8 和 GPT-5.5 的对比。
模型

Kimi K2.7 Code(2026):1T MoE 编程模型、基准测试与定价
Kimi K2.7 Code:Moonshot AI 推出的 1T 开源编程模型,32B 激活 MoE,preserve_thinking 模式,对比 GPT-5.5 和 Claude Opus 基准测试。
模型

MiniMax M3开源版(2026):428B模型、百万上下文与基准测试
MiniMax M3:428B开放权重模型,通过稀疏注意力实现百万上下文,原生多模态输入,编程基准测试有竞争力,价格比GPT-5.5便宜10倍。
模型
更多文章
查看全部
美国政府封禁Anthropic Fable 5与Mythos 5(2026)
美国政府封禁Anthropic:商务部于2026年6月12日下令暂停Fable 5和Mythos 5。长达四个月的冲突完整时间线。
模型

Siri AI 评测(2026):Apple 重建的助手对比 ChatGPT 和 Gemini [实测]
Siri AI 是 Apple 2026 年重建的助手。查看功能、隐私模型、设备支持,以及与 ChatGPT 和 Gemini 的对比。
评测

Claude Fable 5 发布(2026):Anthropic 最强 AI 模型全面解析
Claude Fable 5 是首个面向公众开放的 Mythos 级模型。集最先进的编程、视觉和知识工作能力于一体,配备全新安全护栏。定价、基准测试及深远影响。
模型

Ideogram AI 评测(2026):免费套餐实测,对比 Midjourney 与 Recraft
Ideogram AI 评测(2026):实测免费套餐、定价、文字渲染,以及 Ideogram 4.0 对比 Midjourney 和 Recraft。谁该用它?
评测