模型
2026年最佳AI模型:GPT-5.5 vs Claude vs DeepSeek vs Gemini [排名]
2026年6月哪个AI模型最好?我们对比了GPT-5.5、Claude Opus 4.8、DeepSeek V4、Gemini 3和Mistral在编程、写作和价格方面的表现。内含最新排名。
简答(2026年6月): 没有一个”最好的”AI能胜任所有工作。领先者按任务划分。
GPT-5.5是OpenAI生态中编程智能体、终端操作和办公任务的首选。Claude Opus 4.8是精细写作和已信任Anthropic的团队的升级选择。Gemini 3.x最适合文件和邮件已在Google中的场景。DeepSeek V4和MiMo V2.5 Pro是编程实验和大上下文的低成本开放权重选项。MiMo V2.5是视频、图像和音频理解的低价多模态选项。MiniMax M3是新的挑战者,以远低于市场的价格组合了百万上下文、多模态输入和接近前沿水平的编程能力。GLM-5.1和Kimi K2.6在双语编程和长文档处理方面领先。Qwen 3.6是你能在单张24 GB GPU上运行的最佳开源编程模型。Gemma 4 31B是数学和多模态广度的最强本地选项。Mistral在EU友好托管和快速API切换方面有优势。
使用下方表格,然后跳转到与你工作匹配的章节。
最后更新:2026年6月13日。本页面是一个持续维护的信息枢纽,不是一次性列表。
实时对比表
| 模型 | 厂商 | 最佳用途(实用) | API/访问信号 | 注意事项 |
|---|---|---|---|---|
| GPT-5.5 | OpenAI | 编程智能体、电子表格、多步骤计算机使用 | ChatGPT Plus+、Codex、API (gpt-5.5) | 网络安全防护可能拒绝某些安全提示;企业部署进度不同 |
| GPT-5.5 Pro | OpenAI | 高难度研究、法律级深度、BrowseComp密集型任务 | Pro / Business / Enterprise | 更高成本层级;并非所有应用默认可用 |
| Claude Opus 4.8 | Anthropic | 写作、分析、浏览器智能体、诚实的错误标记 | Claude应用、API (claude-opus-4-8)、Claude Code | Opus定价;高努力模式消耗更多token |
| Gemini 3 Pro / 3.1 Pro | Workspace、多模态学习、搜索AI模式 | Gemini应用、Vertex AI、AI Studio | 管理控制台中SKU名称会变化 | |
| DeepSeek V4-Pro | DeepSeek | 编程智能体、百万上下文、开放权重 | deepseek-v4-pro,聊天中Expert模式 | 受监管行业需合规审查 |
| DeepSeek V4-Flash | DeepSeek | 快速低成本编程草稿 | deepseek-v4-flash,Instant模式 | 在最难的智能体评估中与Pro不完全相同 |
| Mistral (Large / Codestral前沿版) | Mistral | EU数据驻留选项、路由器友好的API | Mistral API、合作伙伴、OpenRouter | 命名相似的模型很多;锁定精确ID |
| MiniMax M3 | MiniMax | 编程智能体、百万上下文、多模态(文本、图像、视频输入)、开放权重 | MiniMax API、OpenRouter (minimax/minimax-m3)、HF权重 | 512K保证上下文;MSA稀疏注意力;在你的技术栈上验证工具调用 |
| Gemini 3.5 Flash | 以Flash成本和速度实现接近Pro的编程质量、多模态 | Gemini应用、Vertex AI、AI Studio | 默认中等思考深度;在管理控制台中检查SKU名称 | |
| Moonshot Kimi K2.7 Code | Moonshot AI | 优质开放权重编程:1T MoE、32B活跃参数、preserve_thinking | Moonshot API、OpenRouter (moonshotai/kimi-k2.7-code)、HF权重 | 强制思考模式;256K上下文;$0.95/$4.00每百万token |
| Moonshot Kimi K2.6 | Moonshot AI | 长文档、多模态、编程草稿(现已被K2.7 Code取代) | Moonshot API、OpenRouter (moonshotai/kimi-k2.6) | 失去:free标签;编程用K2.7 Code,免费用Qwen3-Coder |
| Zhipu GLM-5.1 | Zhipu AI | 编程、智能体任务、兼容Claude Code | Zhipu API、OpenRouter、阿里云 | 权重商用有限制;LMArena Code Arena分数优异 |
| Stepfun Step 3.7 | Stepfun | 多模态推理、终端智能体、自动驾驶舱 | Stepfun API、OpenRouter (stepfun/step-3.7-flash) | 256K上下文;在中文任务和具身AI方面表现突出 |
| NVIDIA Nemotron 3 Ultra | NVIDIA | 安全检查、编排、百万上下文智能体任务 | NVIDIA API、OpenRouter (nvidia/nemotron-3-ultra-550b-a55b) | 总参数550B;OpenRouter有免费:free路由;注意延迟 |
| MiMo V2.5 | Xiaomi | 原生多模态(文本、图像、视频、音频)、百万上下文、开放权重 | 小米API、OpenRouter、Hugging Face | 310B/15B MoE;在视频任务上匹配Gemini 3 Pro |
| MiMo V2.5 Pro | Xiaomi | 智能体编程、长期任务、百万上下文、开放权重 | 小米API、OpenRouter | 1T/42B MoE;SWE-Bench Pro 57.2%;比竞品少用40-60%的token |
| Qwen 3.6-27B / 35B-A3B | Alibaba | 最佳开源编程、智能体任务、单GPU可运行 | HF Qwen/Qwen3.6-27B、Ollama、vLLM | Apache 2.0;35B-A3B适配24 GB显存;256K上下文 |
| Gemma 4 31B | Google DeepMind | 本地多模态(文本、图像、音频)、数学、256K上下文 | HF google/gemma-4-31b-it、Ollama gemma4:31b | 4-bit量化需24 GB显存;编程不如Qwen 3.6 |
| Gemma 4 12B Unified | Google DeepMind | 轻量级本地多模态、16 GB笔记本部署、Apache 2.0 | HF google/gemma-4-12B-it、Ollama gemma4:12b、LiteRT-LM | KV缓存显存峰值;Ollama 12b标签仅文本+图像;参见Gemma 4 12B指南 |
如何解读别处的基准测试说法: 厂商喜欢在命名测试上展示百分比得分。以下是其中几个测试的通俗含义。
- Terminal-Bench: 模型能否逐步执行真实的命令行任务?
- SWE-Bench: 模型能否修复开源GitHub项目中的真实bug?
- GDPval: 模型在混合办公类知识工作中表现如何?
- BrowseComp: 模型在网络搜索和引用方面表现如何?
分数越高通常意味着模型完成了更多测试内容。将数字视为参考,而非单一的智商分数。务必在你自己的工作中测试。
本页面的评分方式
AI Tools Radar不是一个重跑每个厂商排行榜的实验室。我们阅读发布公告、系统卡和定价页面,然后将它们翻译成为选择模型和工具的人能理解的语言。
我们包含什么
- 为我们三个赛道(智能体、创作者/演示、构建者)中的工具提供动力的前沿模型。
- 仅当厂商针对该模型发布了基准名称的通俗解释。
- 链接到更深入的AI Tools Radar评测和每周雷达文章,让你能在一次访问中选择工具和模型。
我们跳过什么
- 没有任务映射的大型模型列表。
- 不指定工作场景就称某个模型”最好”。
- 完整的视频模型对决(那些内容在雷达文章中)。
更新时机: 重大发布(2026年4月GPT-5.5、2026年5月Claude Opus 4.8、2026年4月DeepSeek V4、2026年6月MiniMax M3)或latest ai models 2026搜索热度上升时。
GPT-5.5 (OpenAI)
通俗解释: GPT-5.5是OpenAI最新的通用AI大脑,专为跨多步骤的工作而优化。它的设计目标是读取混乱的指令、制定计划、使用工具(终端、浏览器、电子表格)、检查自身输出并持续执行。把它想象成”数字同事”,而不是”回答一个问题的聊天框”。
OpenAI于2026年4月23日发布。API访问在4月24日开放。
厂商引用的分数(2026年4月): OpenAI称GPT-5.5在编程和桌面任务上超越了前一版本。来自其公告的示例:
- Terminal-Bench 2.0达到82.7%: 多步骤终端操作优于GPT-5.4(75.1%)。通俗含义:更频繁地正确执行shell工作流。
- SWE-Bench Pro达到58.6%: 修复更多真实GitHub问题。通俗含义:代码仓库修复能力更强。
- GDPval达到84.9%胜或平: 在混合专业任务中表现稳定。通俗含义:跨岗位类型表现不错,不仅限于代码。
- OSWorld-Verified达到78.7%: 更可靠地操作模拟桌面。通俗含义:UI点击和应用控制有所改善。
- BrowseComp达到84.4%(GPT-5.5 Pro为90.1%):带引用的网络研究。通俗含义:深度检索任务表现更好。
OpenAI还发布了与Claude Opus 4.7和Gemini 3.1 Pro的并排对比。用于了解趋势方向,这不是我们的独立复测。
日常实际意义: 如果你想要一个模型来运行终端、修补代码仓库、制作幻灯片或表格、驱动UI,GPT-5.5就是针对你的。OpenAI声称在Codex任务上达到GPT-5.4级速度但使用更少token。当你按百万token付费时这很重要。
你能在哪里感受到它
- ChatGPT(Plus及以上):面向专业工作的更深度”思考”风格回答。
- Codex: 在循环中构建、重构、调试和验证代码。
- API: 合作伙伴大规模交付带安全规则的
gpt-5.5和gpt-5.5-pro。
选择GPT-5.5的场景: 你已经标准化使用OpenAI。你的团队在Codex或使用OpenAI后端的Cursor中工作。你需要在一个循环中同时处理计算机使用和办公文件。
暂停或搭配使用的场景: 法务需要另一家供应商。你只需要大规模低成本翻译。你想要Anthropic风格的对不良方案的质疑。许多团队用GPT-5.5处理代码,用Claude处理文章。
安全提示: OpenAI对这一代模型的网络和生物风险进行了评级。更严格的网络安全过滤器可能会拒绝某些安全提示。防御者可以申请Trusted Access for Cyber,如果拒绝回复阻碍了合法的安全加固工作。
Claude Opus 4.8 (Anthropic)
通俗解释: Claude Opus 4.8是Anthropic的顶级模型,面向精细语言工作和长时间智能体会话。它的设计目标是写得好、通过文档进行推理、在需要时使用浏览器,以及标记自身错误而非掩饰。
Anthropic于2026年5月28日发布。API定价与Opus 4.7相同:每百万输入token $5,每百万输出token $25。更快的层级为**$10 / $50**每百万token。核心卖点是信任和吞吐量,而非价格战。
分数和声明(厂商公布): Anthropic的系统卡引用了编程、智能体、推理和知识工作方面的提升。发布中的第三方引用提到Online-Mind2Web达到84%(通俗含义:浏览网页并执行操作的能力更强)和法律智能体基准测试。在Terminal-Bench 2.1上,Anthropic注意到GPT-5.5使用Codex CLI达到83.4%,而自身使用不同的测试框架。测试框架的选择会影响分数。 尽可能使用相同的测试设置来比较模型。
用户注意到的行为
- 诚实度: Opus 4.8忽略已知代码缺陷的概率大幅降低(厂商评估引用的改善幅度约为Opus 4.7的4倍)。
- 努力控制: 在Claude.ai和Cowork中调高或调低努力程度。更深入的分析消耗速度和速率限制。
- 动态工作流(Claude Code): 用于大型迁移的研究预览,支持并行子智能体。目标是以测试通过为标准的代码仓库级变更。
- 快速模式: 在快速价格层级下速度提升2.5倍,比之前的Opus快速模式更便宜。
选择Claude Opus 4.8的场景: 长报告、法律或金融文档、面向客户的写作,或必须质疑薄弱指令的智能体。使用Claude Code、Cursor、Devin或Cowork的团队通常首先升级到这里。

将Claude与工具搭配使用,而非替代工具: Claude不能替代SlideAI、Gamma或Dokie进行幻灯片布局。它提供文字和结构,演示工具提供视觉呈现。参见我们的SlideAI评测了解这种分工。
Fable 5和Mythos 5说明(6月12日): 美国商务部命令Anthropic暂停其最先进的Fable 5和Mythos 5模型的海外访问。Opus 4.8、Sonnet和Haiku不受影响。完整报道和替代方案,请参见我们的美国政府禁令详解。
不应作为唯一前沿选择的场景: 你完全依赖Google Workspace智能。你需要IDE默认依赖的OpenAI专属Codex功能。
Gemini 3.x (Google)
通俗解释: Gemini 3是Google面向消费者和云的主要AI系列。它在Google已经存储你数据的地方表现最强:Gmail、Docs、Drive、搜索和Vertex AI。在许多方案中,它也能很好地处理图像、视频和长PDF。
Gemini 3系列于2025年11月开始推出。到2026年6月,许多对比表(包括OpenAI的4月对比)引用Gemini 3.1 Pro作为同级模型。Google在3.x系列内推送更新的速度快于主版本号变更。

来自Google DeepMind的分数(Gemini 3发布材料):
- LMArena Elo 1501: 厂商报告中的众评聊天质量。通俗含义:用户在该排行榜的盲测中更偏好它。
- Humanity’s Last Exam 37.5%(无工具):高难度多学科考试。通俗含义:广泛知识储备强,但仍不完美。
- GPQA Diamond 91.9%: 研究生级科学问答。通俗含义:技术问答能力非常强。
- MMMU-Pro 81% / Video-MMMU 87.6%: 图像和视频理解测试。通俗含义:擅长读取视觉内容,与生成好莱坞级视频不同。
- SWE-bench Verified 76.2% / Terminal-Bench 2.0 54.2%: Google开发者博客中的编程和终端分数。通俗含义:编程能力扎实,终端方面不总是领先于OpenAI。
- WebDev Arena: Google声称在”氛围编程”UI方面领先。通俗含义:在快速Web应用原型方面有竞争力。
Gemini 3 Deep Think是面向Ultra订阅者的更高推理模式(需安全审查后)。厂商卡片显示更强的谜题类分数(如ARC-AGI-2风格任务)。
Gemini在实践中的优势
- Workspace: 在Gmail、Docs、Drive中进行摘要和起草。
- 搜索AI模式: 与查询相关的生成式布局。
- Vertex AI / Gemini Enterprise: 已在Google Cloud上的团队。
- Antigravity: Google的智能体IDE,搭配Gemini 3 Pro和计算机使用模型。
选择Gemini的场景: 你的身份、文件和计费已在Google中。多模态教学(视频、手写笔记、长PDF)是你产品的核心。
注意事项: 管理控制台按域名显示不同的SKU。营销中的”Gemini 3”可能与精确的API模型字符串不匹配。混合型公司通常内部使用Gemini,在工程工具中使用GPT-5.5或Claude。
**Gemini 3.5 Flash(2026年5月)**是该系列中更新的高效率版本。Google将其定位为以Flash级成本和速度提供接近Pro的编程质量。它支持文本、图像、视频、音频和PDF输入,并提供可调节的思考级别(从最低到最高),让你可以在速度和深度之间权衡。如果你已在Gemini生态中,想要更便宜的日常草稿而不离开生态,3.5 Flash是合理的替代选择。
2026年6月说明: Google I/O报道指向更多3.5 / Omni变体。当这些产品广泛推出时,我们添加新行而非悄悄重写历史。参见6月第1周雷达了解基于Gemini的工具发布。
DeepSeek V4
通俗解释: DeepSeek V4是中国实验室最新的开放权重系列,专为长上下文和低API成本的编程智能体而构建。你可以运行大型提示(在官方服务上最多约一百万token),而无需为每次调用支付美国前沿级的价格。
V4预览版于2026年4月上线,有两个公开版本:
- DeepSeek-V4-Pro: 大型稀疏模型(总参数约1.6T,每token活跃约49B)。目标是前沿级编程和推理。
- DeepSeek-V4-Flash: 更小(总参数约284B,活跃约13B)。目标是快速、低成本的草稿。
两者在DeepSeek服务上默认提供百万token上下文。技术上通过稀疏注意力和token压缩来降低长上下文费用。
厂商声明: DeepSeek在其技术报告中声称在智能体编程基准测试中达到开源SOTA。它在自己的图表中将世界知识排在Gemini-3.1-Pro之下,但高于许多开源模型。V4-Flash是经济型主力。V4-Pro以低于许多美国超大规模厂商路由器标价的API价格追赶封闭前沿质量。
API机制
- 模型ID:
deepseek-v4-pro、deepseek-v4-flash。 - 模式:思考和非思考(参见DeepSeek API指南)。
- 旧版路由
deepseek-chat和deepseek-reasoner将于2026年7月24日15:59 UTC下线,详见DeepSeek API定价。在生产智能体中断前迁移。
选择DeepSeek V4的场景
- 每百万token成本影响利润(初创公司、高量代码生成、批量审查)。
- 你想要Hugging Face上的开放权重用于本地部署或研究复现。
- 你需要百万上下文进行日志取证、仓库级问答或文档堆栈处理。
风险管理: 受监管行业应进行供应商审查、数据驻留检查,以及在你自己的代码和你自己的客户数据策略上进行并排评估。DeepSeek不是一个现成的合规决策。
路由器提示: 如果你想要统一SDK,OpenRouter和Together上架了V4-Pro。将温度和思考标志与你之前的DeepSeek V3方案保持一致。
MiniMax M3
通俗解释: MiniMax M3是MiniMax推出的多模态基础模型,接受文本、图像和视频输入并返回文本。它配备最高一百万token上下文窗口,定价远低于美国前沿模型。MiniMax于2026年6月1日发布,作为开放权重模型。
主要亮点是长上下文、多模态输入和编程性能的组合,价格使百万token提示切实可行。MiniMax基于MSA(MiniMax稀疏注意力)构建,使用KV块选择而非完整注意力。结果是在百万token下预填充速度提升约9倍,解码速度提升约15倍,每token计算成本约为十分之一。
厂商声明(2026年6月):
- SWE-Bench Pro达到59.0%: MiniMax称在该编程基准测试上超越了GPT-5.5和Gemini 3.1 Pro。
- Terminal-Bench 2.1达到66.0%: 终端任务性能扎实。
- BrowseComp达到83.5: 网络研究和引用能力有竞争力。
- GPQA达到92.9: 研究生级科学问答能力强。
将这些视为厂商的方向性信号,而非我们的独立复测。MiniMax还指出M3在其图表中的SVG-Bench和BrowseComp上超越了Claude Opus 4.7。
定价(OpenRouter / MiniMax API,2026年6月):
- 标准层级(最多512K输入token): 在临时上线促销期间,大约每百万输入token $0.30,每百万输出token $1.20。折扣前标价约$0.60 / $2.40。
- 受限层级(超过512K输入token): 大约每百万输入token $1.20,每百万输出token $4.80。
这使M3成为目前运行长上下文编程和智能体工作负载最便宜的方式之一。
选择MiniMax M3的场景
- 你想要百万上下文进行仓库级问答、日志取证或长视频转录,而无需支付前沿级每token价格。
- 你需要在单个提示中将多模态输入(图像、视频)与文本推理结合。
- 你偏好可以下载并本地运行或微调的开放权重。
- 你的技术栈已通过OpenRouter路由,需要一个便宜、能力强的编程草稿模型。
完整评测含本地部署指南和量化表:MiniMax M3开源版(2026)。
注意事项: 工具调用支持因提供商路由而异。在你依赖M3进行多步骤工具循环之前,使用你确切的智能体框架进行冒烟测试。许可证允许商用但有条件,在发布产品前请阅读。合规团队应对任何非美国实验室进行相同的供应商审查。

其他值得关注的模型(2026年6月)
前沿不仅仅是OpenAI、Anthropic、Google、DeepSeek和MiniMax。以下是目前在特定任务中重要的另外五个模型。
Moonshot Kimi K2.6和K2.7 Code
K2.7 Code(2026年6月12日发布)是Moonshot AI最新的编程专用模型。它是一个1万亿参数的MoE模型,每token仅32B活跃参数,针对多轮编程会话进行优化,支持preserve_thinking模式在轮次间保留推理上下文。完整评测:Kimi K2.7 Code(2026)。
重要性: K2.7 Code在MCP Mark Verified上击败Claude Opus 4.8(81.1 vs 76.4),在MLS Bench Lite上几乎追平GPT-5.5(35.1 vs 35.5)。它采用Modified MIT开源许可,支持通过MoonViT进行多模态输入(图像+视频)。API定价$0.95/$4.00每百万token,将其定位为质量高于DeepSeek V4 Pro但价格低于其的优质开源编程模型。
**K2.6(2026年5月)**仍然可用但已被取代。它在LMArena Code Arena上得分1529,支持多模态和262K上下文。截至2026年6月13日,已失去OpenRouter :free标签。编程使用K2.7 Code,免费替代方案用Qwen3-Coder(:free)。
价格信号: K2.7 Code $0.95/$4.00每百万token。K2.6约$0.68/$3.41。两者都在OpenRouter和Moonshot API上可用。
最适合: 推理持久性重要的多轮编程会话、想要带视觉输入的开源编程模型的团队,以及双语编程工作。
Zhipu GLM-5.1
它是什么: 智谱AI的旗舰编程和智能体模型。它是一个专有系统,权重有商用限制。
重要性: GLM-5.1在LMArena Code Arena上得分1534,在该基准测试上排名高于Kimi K2.6和DeepSeek V4 Pro。开发者报告称它在Claude Code框架中用于代码仓库级变更时表现出色。它也是在中英双语编程任务中最强的模型之一。
最适合: 双语环境中的编程智能体、兼容Claude Code的工作流,以及已在阿里云或智谱推理上运行的团队。

Stepfun Step 3.7
它是什么: 阶跃星辰的多模态推理模型,2026年5月下旬发布。支持256K上下文窗口,定位于终端智能体和具身AI。
重要性: Stepfun同时推出GUI智能体模型和语音模型。Step 3.7 API已在OpenRouter上线,每百万输入token $0.20,每百万输出token $1.15,是市场上最便宜的多模态路由之一。
最适合: 中文智能体任务、自动驾驶集成(Stepfun与吉利合作),以及低成本多模态草稿。


NVIDIA Nemotron 3 Ultra
它是什么: NVIDIA的550B参数开放混合MoE模型,配备一百万token上下文窗口。面向推理、编排和安全检查任务。完整指南:NVIDIA Nemotron 3 Ultra(2026)。
重要性: Nemotron 3 Ultra在OpenRouter上可用:free后缀,这意味着在促销期间你可以零token成本运行百万上下文安全检查和智能体编排。更小的Nemotron 3 Super(120B)和Nano变体也在OpenRouter上有免费标签。
最适合: 安全护栏、智能体编排层,以及需要NVIDIA基础设施但不想付NVIDIA标价的长上下文实验。
MiMo V2.5和V2.5 Pro
它是什么: 小米MiMo V2.5系列有两个不同的成员。MiMo V2.5是一个310B参数(15B活跃)的原生多模态模型,在单一系统中理解文本、图像、视频和音频。MiMo V2.5 Pro是一个1.02T参数(42B活跃)的文本专注型智能体编程专家。两者都配备一百万token上下文窗口和开放权重。
重要性: MiMo V2.5是小米对Gemini 3 Pro在多模态任务上的回应。厂商图表显示它在视频理解方面匹配Gemini 3 Pro(Video-MME 83.5 vs 84.2),在图像推理方面(MMMU-Pro 88.5 vs 86.4),且成本只是后者的一小部分。MiMo V2.5 Pro是目前最强的开放权重编程智能体之一。它在SWE-Bench Pro上得分57.2%,在Terminal-Bench 2.0上得分68.4%,同时每个任务使用的token比Claude Opus 4.6或GPT-5.4少约40-60%。两者均采用MIT许可,在Hugging Face上可用。
定价(2026年6月):
- MiMo V2.5: 约每百万输入token $0.14,每百万输出token $0.28。
- MiMo V2.5 Pro: 约每百万输入token $1.00,每百万输出token $3.00。
这使基础版V2.5成为市场上最便宜的多模态模型之一,Pro版成为最便宜的前沿级编程智能体之一。
最适合:
- MiMo V2.5: 多模态草稿、视频分析、图表理解,以及在一个提示中需要图像、视频和音频的低成本长上下文问答。
- MiMo V2.5 Pro: 编程智能体、自主工具循环和长期软件工程,当DeepSeek V4限速时,或当你想在路由器栈中添加第二个开放权重供应商时。
注意事项: 小米仍在建设其国际API和社区生态。工具调用行为可能与OpenAI风格的SDK不同。在正式使用前测试你确切的智能体框架。

Mistral(前沿产品线)
通俗解释: Mistral是一家欧洲AI公司,提供快速、开发者友好的模型。部分权重开放,部分为专有。当你需要EU友好托管、快速API切换,或在将工作发送到GPT-5.5或Claude之前需要更便宜的草稿模型时,该品牌很受欢迎。
命名变化很快:Large、Medium、Codestral、Devstral和合作伙伴变体。在本页面中,Mistral前沿版指的是你的API控制台在2026年6月显示的最新Large或Codestral版本,而非每个旧检查点。
Mistral为何保留在”最新模型”页面上
- 数据驻留: EU客户通常需要在欧洲区域进行推理。Mistral面向该需求营销。
- 路由器生态: OpenRouter、Groq和Together很早就添加了Mistral模型ID。当GPT-5.5或Claude限速时,它们是替代选项。
- 专用编程模型: Codestral品牌模型在IDE自动补全和小型智能体步骤中仍然流行,这些场景下使用完整的Opus或GPT-5.5过于奢侈。
实用选择规则
- 在
.env中锁定精确的模型字符串(如mistral-large-2411这样的ID会随版本变化)。 - 使用Mistral进行草稿处理。如果质量偏移,使用美国前沿模型进行最终检查。
- 启用智能体工具时阅读Mistral的安全和能力卡片。较小的模型更容易产生工具参数幻觉。
选择Mistral的场景: 你在EU构建产品,想要供应商多样性但不训练自己的权重,或你的OpenRouter账单在GPT-5.5上飙升需要降低成本。
不应作为唯一前沿模型的场景: 你需要OpenAI和Anthropic在Codex和Claude Code中优化的计算机使用分数。
本地模型:Qwen 3.6 vs Gemma 4
如果你想在自己的硬件上运行前沿级模型,2026年6月有两个系列占主导地位:Qwen 3.6和Gemma 4。
Qwen 3.6 (Alibaba)
重要性: Qwen 3.6是当前开放权重编程的领先者。Qwen3.6-27B密集模型在SWE-bench Verified上得分77.2%,Qwen3.6-35B-A3B MoE在AIME 2026上得分92.7%,在GPQA Diamond上得分86.0%。全部采用Apache 2.0许可。
硬件适配:
- Qwen3.6-27B: 在24 GB GPU(RTX 3090/4090)上运行,约50 tok/s。
- Qwen3.6-35B-A3B: 每token仅约3.1B活跃参数,因此量化后也能装入24 GB显卡。这是单GPU前沿编程的最佳选择。
最适合: 编程智能体、长上下文仓库问答(原生256K,可扩展至1M),以及需要Apache 2.0权重且无许可证摩擦的团队。preserve_thinking功能帮助智能体工具循环跨轮次保持上下文。

Gemma 4 (Google DeepMind)
重要性: Gemma 4是Google首个开放权重MoE系列,尺寸从E2B(微型)到31B密集型。所有尺寸均为Apache 2.0。31B密集模型在MMLU Pro上得分85.2%,在LiveCodeBench上得分80%,而E2B和E4B尺寸增加了原生音频理解(Qwen 3.6不具备此能力)。
硬件适配:
- Gemma 4 E2B/E4B: 8 GB内存笔记本。适合边缘演示和基础多模态任务。
- Gemma 4 26B-A4B: 16 GB显存。每token仅使用4B活跃参数的MoE。
- Gemma 4 31B: 4-bit量化需24 GB显存。推理和数学的旗舰。
最适合: 数学任务(AIME 89.2%)、多模态广度(小尺寸上的文本+图像+视频+音频)、多语言工作(140+种语言),以及想要Google训练栈支持本地部署的团队。

如何选择
| 你的优先级 | 首选 | 备选 |
|---|---|---|
| 编程 / SWE-bench | Qwen 3.6-27B或35B-A3B | Gemma 4 31B |
| 数学 / MMLU | Gemma 4 31B | Qwen 3.6-35B-A3B |
| 多模态+音频 | Gemma 4 E2B/E4B或31B | (Qwen 3.6无音频输入) |
| 单张24 GB GPU | Qwen 3.6-35B-A3B | Gemma 4 26B-A4B |
| 笔记本/边缘 | Gemma 4 E4B | Qwen 3.5-9B |
| 智能体工具循环 | Qwen 3.6-27B(preserve_thinking) | Gemma 4 31B |
实用提示: 两个系列都通过Ollama、vLLM和llama.cpp运行。如果你只有一张GPU,编程用Qwen3.6-35B-A3B,通用推理用Gemma 4 31B。如果有两张GPU或工作站,同时运行两者,在你实际的代码和文档上做A/B测试。
哪个模型适合哪种工作?
| 工作 | 首选 | 备选 | AI Tools Radar搭配 |
|---|---|---|---|
| 在IDE / Codex中交付功能 | GPT-5.5、GLM-5.1、DeepSeek V4-Pro | Claude Opus 4.8、MiniMax M3、Kimi K2.7 Code | 构建者赛道评测(Devin Desktop、Cursor) |
| 高管备忘录或董事会报告 | Claude Opus 4.8、GPT-5.5 Pro | Gemini 3 Pro | 除非研究密集型,否则不用Manus |
| 从要点生成幻灯片 | Gemini或Claude做大纲 | SlideAI、Gamma、Dokie | SlideAI评测 |
| 异步网络研究智能体 | GPT-5.5或Claude搭配智能体框架 | Gemini用于Google原生来源 | Manus AI评测 |
| 客服智能体 | GPT-5.5、Gemini 3 | 领域微调 | 如果你对标厂商评估,测试Tau2风格的电信流程 |
| 低成本批量代码审查 | MiniMax M3、Kimi K2.7 Code、DeepSeek V4-Flash | Mistral Large、Stepfun 3.7通过路由器 | 仅将失败文件提升到GPT-5.5 |
| 法律/金融文档提取 | Claude Opus 4.8 | GPT-5.5 Pro | 人工审查仍然必要 |
| 多模态学习(视频+PDF) | Gemini 3 Pro、MiMo V2.5、MiniMax M3、Kimi K2.7 Code | GPT-5.5(在启用的地方带视觉) | 课堂风格提示,非智能体 |
| 长上下文仓库问答(百万token) | MiniMax M3、DeepSeek V4-Pro | Nemotron 3 Ultra(免费层级) | 如果结构重要,分块仍优于暴力方法 |
| 中文双语编程 | GLM-5.1、Kimi K2.7 Code | Qwen3-Next、Stepfun 3.7 | 在中文提示上验证工具调用 |
| 本地编程智能体(自托管) | Qwen 3.6-27B / 35B-A3B | Gemma 4 31B | Ollama或vLLM;验证工具调用 |
| 本地推理/数学(自托管) | Gemma 4 31B | Qwen 3.6-35B-A3B | Ollama或vLLM;量化以适配显存 |
| 仅EU的API要求 | Mistral前沿版 | Gemini EU区域 | 与法务确认DPA |
OpenRouter和API路由(2026年6月)
大多数团队从不直接接触基础模型。他们使用应用(ChatGPT、Claude、Cursor、Manus)或转发请求的路由器。
OpenRouter(以及Together、Groq、Fireworks等同类)在一个OpenAI风格的API后面暴露多个模型ID。2026年的典型模式:
- 对请求分类: 草稿vs最终版,公开vs机密,实时vs隔夜批量。
- 草稿路由到
minimax/minimax-m3、moonshotai/kimi-k2.7-code、deepseek-v4-flash或中端Mistral模型。 - 最终版路由到
gpt-5.5、claude-opus-4-8、glm-5.1或gemini-3.1-pro,取决于你最担心什么(代码bug vs 语气偏移 vs 仅Google工具)。 - 按任务记录模型ID,以便在厂商重命名默认值时审计成本。
我们观察到的故障模式
- 应用悄悄升级默认值(GPT-5.4到GPT-5.5),在简单提示上质量未提升但支出跳增。
- 路由器在2026年6月DeepSeek下线后缓存旧ID。
- Manus等智能体隐藏后端。阅读发布说明和智能体设置。
我们正在完成6月日历上的专门OpenRouter免费模型指南(参见6月第1周雷达)。在此之前,将本页面作为能力图谱,雷达作为工具评判。
2026年最佳免费和低成本AI模型
不是每个人都需要每月$20的订阅。以下是如何以更低成本获得强大输出。
有效的免费层级
- ChatGPT Free运行GPT-5.5级模型,有速率限制。适合偶尔的起草和轻度编程问题。
- Claude Free提供Sonnet级模型访问。在我们的测试中,长文档处理优于ChatGPT Free。
- Gemini Free在Google应用中包含3.x系列。通常是Workspace用户的默认选择。
- MiniMax M3开放权重和低API定价使其成为运行长上下文编程草稿最便宜的方式之一。完整评测:MiniMax M3开源版(2026)。
- Kimi K2.7 Code是最新的开放权重编程专用模型。没有免费层级,但在智能体基准测试上以远低于GPT-5.5的价格具有竞争力。完整评测。
- Kimi K2.6截至6月13日已失去OpenRouter上的
:free标签。编程用K2.7 Code,免费用Qwen3-Coder。 - NVIDIA Nemotron 3 Ultra和Nemotron 3 Super均在OpenRouter上提供
:free标签,可零token成本进行百万上下文实验。 - DeepSeek V4-Flash和MiMo V2.5 API定价是编程和智能体任务中最低的之一。DeepSeek服务上有免费聊天模式。
- Mistral开放权重可在GPU本地运行或通过Groq免费层级在便宜的路由器上运行。
何时付费
- 编程智能体需要GPT-5.5 Pro、Claude Opus或DeepSeek V4-Pro才能进行可靠的多步骤工作。
- 超过100K token的长上下文任务通常需要付费层级或API密钥。
- SSO、审计日志和数据退出等企业功能在每个厂商都是付费墙后的。
成本经验法则: 从免费开始。只有当你在实际任务中碰到速率限制或准确度瓶颈时才升级到付费。不要为简单的问答预购前沿层级。
视频和多模态模型(2026年6月说明)
文本前沿模型与视频生成器(Kling、Veo级工具、Grok Imagine、runway风格的UGC应用)不同。Video-MMMU等分数显示的是Gemini在理解视频方面的实力,而不总是生成电影级片段的能力。
AI Tools Radar策略: 我们在每周雷达文章中跟踪视频工具,而非在此进行完整的生成视频排行。对于直接对比选择,阅读Kling AI 3.0 vs Grok vs Veo(2026)。如果两者都需要,将Gemini或GPT-5.5用于脚本和分镜,配合创作者赛道工具进行渲染。
多模态提示: 当厂商引用图像或视频分数时,检查你的方案是否在API中包含该模态,还是仅在消费者应用中。许多企业只有纯文本合同。
如何在30分钟内更新你的技术栈
- 列出五个重复性任务(代码、幻灯片、邮件分类、客服宏、研究简报)。
- 记下每个任务当前使用的应用(不是你假设的模型)。
- 打开厂商发布说明查看该应用2026年4月至6月的默认模型。
- 对每个任务运行一次A/B测试,使用新的模型名称(相同的评判标准:正确性、语气、工具使用、时间)。
- 检查成本仪表板了解token用量。GPT-5.5声称高效,但智能体循环仍可能导致用量暴增。
- 更新内部文档,为路由器和CI机器人锁定模型ID。
- 如果延迟、拒绝或支出在你的评判标准上没有质量提升的情况下上升,回滚。
内容差距和内部链接
许多文章列出模型却不指出你实际点击的工具。AI Tools Radar弥补了这个差距:
- 智能体: Manus AI评测(2026)解释异步交付物。智能体模式对决参见Manus AI vs ChatGPT Agent vs Claude(2026)。根据后端搭配GPT-5.5或Claude。
- 幻灯片: SlideAI评测(2026)用于演示输出。模型提供文字,SlideAI提供布局。
- 每周发布: 2026年AI新工具(6月第1周)了解基于这些模型发布的工具。
- 8月刷新: 2026年8月AI模型对比基准查看Q2路由说明。
- 编程对比: DeepSeek V4 vs ChatGPT vs Claude编程对比(2026)。
- 开放权重深度解析: MiniMax M3开源版(2026)和Kimi K2.7 Code(2026)。
- 政策: 美国政府封禁Anthropic Fable 5和Mythos 5(2026)。
- 路由: OpenRouter免费模型(2026)。
- Excel工作流: GPT-5.5 Excel工作流(2026)。
- 自由职业技术栈: 用AI工具赚钱(2026)。
如果你希望扩展某个特定的模型行,发布后在我们的网站上搜索latest ai models 2026加上厂商名称。
更新日志
- 2026-06-13: 6月13日刷新。将Kimi K2.7 Code(6月12日发布)添加到对比表,含基准测试、定价和preserve_thinking详情。更新了Kimi K2.6条目(失去OpenRouter
:free标签)。在工作路由表和免费模型推荐中用K2.7 Code替换了K2.6。链接到MiniMax M3、Kimi K2.7 Code和美国政府封禁Fable 5/Mythos 5的完整评测。在Claude Opus部分添加了Fable 5禁令说明。 - 2026-06-05: 6月重大刷新。将MiniMax M3(6月1日)、Moonshot Kimi K2.6、Zhipu GLM-5.1、Stepfun Step 3.7、NVIDIA Nemotron 3 Ultra、MiMo V2.5 Pro添加到对比表,并新增”其他值得关注的模型”章节。将MiMo V2.5提升为与DeepSeek V4并列的开放权重低成本领先者。在Gemini部分添加了Gemini 3.5 Flash(5月19日)。新增”本地模型”章节涵盖Qwen 3.6 vs Gemma 4 31B vs Gemma 4 12B。扩展工作路由表增加双语编程、长上下文和本地自托管行。更新了OpenRouter路由、免费/低成本说明和FAQ。从低成本推荐中移除了Llama。
- 2026-06-05: 将Gemma 4 12B添加到对比表。链接到Gemma 4 12B本地部署指南。
- 2026-06-02: 事实核查刷新。从OpenAI GPT-5.5、Anthropic Opus 4.8和DeepSeek V4预览确认发布日期和标题基准测试。将DeepSeek旧版API下线时间锁定为2026年7月24日15:59 UTC。
- 2026-06-02: 全面改写为通俗语言。添加了GPT-5.5(2026年4月OpenAI)、Claude Opus 4.8(2026年5月Anthropic)、DeepSeek V4(2026年4月)、Mistral前沿说明、OpenRouter章节、工作表、30分钟刷新指南、八个FAQ。
- 2026-05-27: 初始信息枢纽框架,含简短对比表。
常见问题
8 个问题2026年最好的AI模型是什么?
没有单一赢家。GPT-5.5在多项厂商公布的编程和计算机使用基准测试中领先。Claude Opus 4.8在精细写作、法律风格工作和诚实自查方面表现突出。Gemini 3.x适合Google Workspace用户。DeepSeek V4和MiMo V2.5 Pro是开源开放权重编程实验的低成本首选。MiMo V2.5是视频、图像和音频理解的低价多模态选项。MiniMax M3是百万上下文编程和多模态工作的低价挑战者。Kimi K2.7 Code是最新的开放权重编程专用模型,支持preserve_thinking多轮会话。GLM-5.1在双语编程方面表现优异。对于本地自托管,Qwen 3.6-27B/35B-A3B是单GPU上最好的开源编程模型,Gemma 4 31B在数学和多模态广度方面领先。根据任务、合规要求和数据位置选择。
GPT-5.5比GPT-4好吗?
OpenAI将GPT-5.5(2026年4月)定位为智能体编程、电子表格、浏览器任务和长时间计算机使用的重大升级。如果你在某个应用中仍然看到GPT-4的名称,请检查你的订阅计划和工作区管理设置。许多产品在不更改UI名称的情况下自动升级了默认模型。
什么时候应该选择Claude Opus 4.8而不是GPT-5.5?
当语气、引用规范性、对不良方案的质疑能力或长会话写作比峰值基准分数更重要时,选择Claude。当你主要使用Codex、需要办公自动化、或希望在一个厂商合同中获得OpenAI最新的智能体技术栈时,选择GPT-5.5。
什么时候应该使用DeepSeek V4?
当API成本、百万token上下文或自托管开放权重很重要,且你的安全团队批准了该供应商时,使用DeepSeek V4。在切换生产环境智能体之前,先在你的私有仓库上运行A/B测试。在DeepSeek文档中注明的2026年6月API下线日期之前,迁移旧版deepseek-chat路由。
Gemini 3能替代Google用户的GPT吗?
对于使用Gmail、Docs、Drive和Vertex AI的团队,Gemini 3.x通常是默认的智能层。它不能替代非Google工具中的GPT。混合架构很常见:在Workspace中使用Gemini,在IDE和路由器中使用GPT或Claude。
OpenRouter是什么,我需要它吗?
OpenRouter是一个模型路由器。你发送一种API格式,按请求切换模型ID。当你想用DeepSeek或Mistral进行低成本草稿,再用GPT-5.5或Claude进行最终步骤的高级处理时很有用。如果你只使用一个厂商的应用,则不需要它。
这个页面应该多久更新一次?
我们在主要厂商发布后两周内或Search Console显示某个模型名称搜索量上升时更新updatedDate。2026年6月的更新反映了GPT-5.5(4月)、Claude Opus 4.8(5月)、DeepSeek V4预览(4月)、MiniMax M3(6月)、Kimi K2.7 Code(6月12日)、Gemini 3.5 Flash(5月)、GLM-5.1和Stepfun 3.7。
Manus等工具使用的是哪个模型?
智能体产品自行选择后端,可能每周都会更换。Manus和类似的智能体在用户体验层面是模型无关的。阅读我们的Manus评测了解任务适配性,然后将你的智能体设置映射到本文的对应行。
更多模型
查看全部
GLM-5.2:开源前沿模型,百万上下文、基准测试与本地部署指南(2026)
GLM-5.2 是智谱 AI 推出的 744B 开源权重模型,MIT 许可证。基准测试、定价、vLLM 和 llama.cpp 本地部署,以及与 Claude Opus 4.8 和 GPT-5.5 的对比。
模型

Kimi K2.7 Code(2026):1T MoE 编程模型、基准测试与定价
Kimi K2.7 Code:Moonshot AI 推出的 1T 开源编程模型,32B 激活 MoE,preserve_thinking 模式,对比 GPT-5.5 和 Claude Opus 基准测试。
模型

MiniMax M3开源版(2026):428B模型、百万上下文与基准测试
MiniMax M3:428B开放权重模型,通过稀疏注意力实现百万上下文,原生多模态输入,编程基准测试有竞争力,价格比GPT-5.5便宜10倍。
模型
更多文章
查看全部
美国政府封禁Anthropic Fable 5与Mythos 5(2026)
美国政府封禁Anthropic:商务部于2026年6月12日下令暂停Fable 5和Mythos 5。长达四个月的冲突完整时间线。
模型

Siri AI 评测(2026):Apple 重建的助手对比 ChatGPT 和 Gemini [实测]
Siri AI 是 Apple 2026 年重建的助手。查看功能、隐私模型、设备支持,以及与 ChatGPT 和 Gemini 的对比。
评测

Claude Fable 5 发布(2026):Anthropic 最强 AI 模型全面解析
Claude Fable 5 是首个面向公众开放的 Mythos 级模型。集最先进的编程、视觉和知识工作能力于一体,配备全新安全护栏。定价、基准测试及深远影响。
模型

Ideogram AI 评测(2026):免费套餐实测,对比 Midjourney 与 Recraft
Ideogram AI 评测(2026):实测免费套餐、定价、文字渲染,以及 Ideogram 4.0 对比 Midjourney 和 Recraft。谁该用它?
评测