AI Tools Radar
English
Comparison chart of latest AI models GPT, Claude, Gemini, and DeepSeek in 2026

模型

2026年最佳AI模型:GPT-5.5 vs Claude vs DeepSeek vs Gemini [排名]

2026年6月哪个AI模型最好?我们对比了GPT-5.5、Claude Opus 4.8、DeepSeek V4、Gemini 3和Mistral在编程、写作和价格方面的表现。内含最新排名。

AI Tools Radar Editorial 7 分钟阅读

简答(2026年6月): 没有一个”最好的”AI能胜任所有工作。领先者按任务划分。

GPT-5.5是OpenAI生态中编程智能体、终端操作和办公任务的首选。Claude Opus 4.8是精细写作和已信任Anthropic的团队的升级选择。Gemini 3.x最适合文件和邮件已在Google中的场景。DeepSeek V4MiMo V2.5 Pro是编程实验和大上下文的低成本开放权重选项。MiMo V2.5是视频、图像和音频理解的低价多模态选项。MiniMax M3是新的挑战者,以远低于市场的价格组合了百万上下文、多模态输入和接近前沿水平的编程能力。GLM-5.1Kimi K2.6在双语编程和长文档处理方面领先。Qwen 3.6是你能在单张24 GB GPU上运行的最佳开源编程模型。Gemma 4 31B是数学和多模态广度的最强本地选项。Mistral在EU友好托管和快速API切换方面有优势。

使用下方表格,然后跳转到与你工作匹配的章节。

最后更新:2026年6月13日。本页面是一个持续维护的信息枢纽,不是一次性列表。

实时对比表

模型厂商最佳用途(实用)API/访问信号注意事项
GPT-5.5OpenAI编程智能体、电子表格、多步骤计算机使用ChatGPT Plus+、Codex、API (gpt-5.5)网络安全防护可能拒绝某些安全提示;企业部署进度不同
GPT-5.5 ProOpenAI高难度研究、法律级深度、BrowseComp密集型任务Pro / Business / Enterprise更高成本层级;并非所有应用默认可用
Claude Opus 4.8Anthropic写作、分析、浏览器智能体、诚实的错误标记Claude应用、API (claude-opus-4-8)、Claude CodeOpus定价;高努力模式消耗更多token
Gemini 3 Pro / 3.1 ProGoogleWorkspace、多模态学习、搜索AI模式Gemini应用、Vertex AI、AI Studio管理控制台中SKU名称会变化
DeepSeek V4-ProDeepSeek编程智能体、百万上下文、开放权重deepseek-v4-pro,聊天中Expert模式受监管行业需合规审查
DeepSeek V4-FlashDeepSeek快速低成本编程草稿deepseek-v4-flash,Instant模式在最难的智能体评估中与Pro不完全相同
Mistral (Large / Codestral前沿版)MistralEU数据驻留选项、路由器友好的APIMistral API、合作伙伴、OpenRouter命名相似的模型很多;锁定精确ID
MiniMax M3MiniMax编程智能体、百万上下文、多模态(文本、图像、视频输入)、开放权重MiniMax API、OpenRouter (minimax/minimax-m3)、HF权重512K保证上下文;MSA稀疏注意力;在你的技术栈上验证工具调用
Gemini 3.5 FlashGoogle以Flash成本和速度实现接近Pro的编程质量、多模态Gemini应用、Vertex AI、AI Studio默认中等思考深度;在管理控制台中检查SKU名称
Moonshot Kimi K2.7 CodeMoonshot AI优质开放权重编程:1T MoE、32B活跃参数、preserve_thinkingMoonshot API、OpenRouter (moonshotai/kimi-k2.7-code)、HF权重强制思考模式;256K上下文;$0.95/$4.00每百万token
Moonshot Kimi K2.6Moonshot AI长文档、多模态、编程草稿(现已被K2.7 Code取代)Moonshot API、OpenRouter (moonshotai/kimi-k2.6)失去:free标签;编程用K2.7 Code,免费用Qwen3-Coder
Zhipu GLM-5.1Zhipu AI编程、智能体任务、兼容Claude CodeZhipu API、OpenRouter、阿里云权重商用有限制;LMArena Code Arena分数优异
Stepfun Step 3.7Stepfun多模态推理、终端智能体、自动驾驶舱Stepfun API、OpenRouter (stepfun/step-3.7-flash)256K上下文;在中文任务和具身AI方面表现突出
NVIDIA Nemotron 3 UltraNVIDIA安全检查、编排、百万上下文智能体任务NVIDIA API、OpenRouter (nvidia/nemotron-3-ultra-550b-a55b)总参数550B;OpenRouter有免费:free路由;注意延迟
MiMo V2.5Xiaomi原生多模态(文本、图像、视频、音频)、百万上下文、开放权重小米API、OpenRouter、Hugging Face310B/15B MoE;在视频任务上匹配Gemini 3 Pro
MiMo V2.5 ProXiaomi智能体编程、长期任务、百万上下文、开放权重小米API、OpenRouter1T/42B MoE;SWE-Bench Pro 57.2%;比竞品少用40-60%的token
Qwen 3.6-27B / 35B-A3BAlibaba最佳开源编程、智能体任务、单GPU可运行HF Qwen/Qwen3.6-27B、Ollama、vLLMApache 2.0;35B-A3B适配24 GB显存;256K上下文
Gemma 4 31BGoogle DeepMind本地多模态(文本、图像、音频)、数学、256K上下文HF google/gemma-4-31b-it、Ollama gemma4:31b4-bit量化需24 GB显存;编程不如Qwen 3.6
Gemma 4 12B UnifiedGoogle DeepMind轻量级本地多模态、16 GB笔记本部署、Apache 2.0HF google/gemma-4-12B-it、Ollama gemma4:12b、LiteRT-LMKV缓存显存峰值;Ollama 12b标签仅文本+图像;参见Gemma 4 12B指南

如何解读别处的基准测试说法: 厂商喜欢在命名测试上展示百分比得分。以下是其中几个测试的通俗含义。

  • Terminal-Bench: 模型能否逐步执行真实的命令行任务?
  • SWE-Bench: 模型能否修复开源GitHub项目中的真实bug?
  • GDPval: 模型在混合办公类知识工作中表现如何?
  • BrowseComp: 模型在网络搜索和引用方面表现如何?

分数越高通常意味着模型完成了更多测试内容。将数字视为参考,而非单一的智商分数。务必在你自己的工作中测试。

本页面的评分方式

AI Tools Radar不是一个重跑每个厂商排行榜的实验室。我们阅读发布公告、系统卡和定价页面,然后将它们翻译成为选择模型工具的人能理解的语言。

我们包含什么

  • 为我们三个赛道(智能体、创作者/演示、构建者)中的工具提供动力的前沿模型。
  • 仅当厂商针对该模型发布了基准名称的通俗解释。
  • 链接到更深入的AI Tools Radar评测和每周雷达文章,让你能在一次访问中选择工具和模型。

我们跳过什么

  • 没有任务映射的大型模型列表。
  • 不指定工作场景就称某个模型”最好”。
  • 完整的视频模型对决(那些内容在雷达文章中)。

更新时机: 重大发布(2026年4月GPT-5.5、2026年5月Claude Opus 4.8、2026年4月DeepSeek V4、2026年6月MiniMax M3)或latest ai models 2026搜索热度上升时。

GPT-5.5 (OpenAI)

通俗解释: GPT-5.5是OpenAI最新的通用AI大脑,专为跨多步骤的工作而优化。它的设计目标是读取混乱的指令、制定计划、使用工具(终端、浏览器、电子表格)、检查自身输出并持续执行。把它想象成”数字同事”,而不是”回答一个问题的聊天框”。

OpenAI于2026年4月23日发布。API访问在4月24日开放。

厂商引用的分数(2026年4月): OpenAI称GPT-5.5在编程和桌面任务上超越了前一版本。来自其公告的示例:

  • Terminal-Bench 2.0达到82.7%: 多步骤终端操作优于GPT-5.4(75.1%)。通俗含义:更频繁地正确执行shell工作流。
  • SWE-Bench Pro达到58.6%: 修复更多真实GitHub问题。通俗含义:代码仓库修复能力更强。
  • GDPval达到84.9%胜或平: 在混合专业任务中表现稳定。通俗含义:跨岗位类型表现不错,不仅限于代码。
  • OSWorld-Verified达到78.7%: 更可靠地操作模拟桌面。通俗含义:UI点击和应用控制有所改善。
  • BrowseComp达到84.4%(GPT-5.5 Pro为90.1%):带引用的网络研究。通俗含义:深度检索任务表现更好。

OpenAI还发布了与Claude Opus 4.7和Gemini 3.1 Pro的并排对比。用于了解趋势方向,这不是我们的独立复测。

日常实际意义: 如果你想要一个模型来运行终端、修补代码仓库、制作幻灯片或表格、驱动UI,GPT-5.5就是针对你的。OpenAI声称在Codex任务上达到GPT-5.4级速度但使用更少token。当你按百万token付费时这很重要。

你能在哪里感受到它

  • ChatGPT(Plus及以上):面向专业工作的更深度”思考”风格回答。
  • Codex: 在循环中构建、重构、调试和验证代码。
  • API: 合作伙伴大规模交付带安全规则的gpt-5.5gpt-5.5-pro

选择GPT-5.5的场景: 你已经标准化使用OpenAI。你的团队在Codex或使用OpenAI后端的Cursor中工作。你需要在一个循环中同时处理计算机使用和办公文件。

暂停或搭配使用的场景: 法务需要另一家供应商。你只需要大规模低成本翻译。你想要Anthropic风格的对不良方案的质疑。许多团队用GPT-5.5处理代码用Claude处理文章

安全提示: OpenAI对这一代模型的网络和生物风险进行了评级。更严格的网络安全过滤器可能会拒绝某些安全提示。防御者可以申请Trusted Access for Cyber,如果拒绝回复阻碍了合法的安全加固工作。

Claude Opus 4.8 (Anthropic)

通俗解释: Claude Opus 4.8是Anthropic的顶级模型,面向精细语言工作和长时间智能体会话。它的设计目标是写得好、通过文档进行推理、在需要时使用浏览器,以及标记自身错误而非掩饰。

Anthropic于2026年5月28日发布。API定价与Opus 4.7相同:每百万输入token $5每百万输出token $25。更快的层级为**$10 / $50**每百万token。核心卖点是信任和吞吐量,而非价格战。

分数和声明(厂商公布): Anthropic的系统卡引用了编程、智能体、推理和知识工作方面的提升。发布中的第三方引用提到Online-Mind2Web达到84%(通俗含义:浏览网页并执行操作的能力更强)和法律智能体基准测试。在Terminal-Bench 2.1上,Anthropic注意到GPT-5.5使用Codex CLI达到83.4%,而自身使用不同的测试框架。测试框架的选择会影响分数。 尽可能使用相同的测试设置来比较模型。

用户注意到的行为

  • 诚实度: Opus 4.8忽略已知代码缺陷的概率大幅降低(厂商评估引用的改善幅度约为Opus 4.7的4倍)。
  • 努力控制: 在Claude.ai和Cowork中调高或调低努力程度。更深入的分析消耗速度和速率限制。
  • 动态工作流(Claude Code): 用于大型迁移的研究预览,支持并行子智能体。目标是以测试通过为标准的代码仓库级变更。
  • 快速模式: 在快速价格层级下速度提升2.5倍,比之前的Opus快速模式更便宜。

选择Claude Opus 4.8的场景: 长报告、法律或金融文档、面向客户的写作,或必须质疑薄弱指令的智能体。使用Claude CodeCursorDevinCowork的团队通常首先升级到这里。

Claude.ai home screen with Opus 4.8 model selector and chat input on anthropic.com

Claude.ai主页,含Opus级模型访问。截图来自厂商网站,2026年6月2日截取。UI和定价可能变更。

将Claude与工具搭配使用,而非替代工具: Claude不能替代SlideAI、Gamma或Dokie进行幻灯片布局。它提供文字和结构,演示工具提供视觉呈现。参见我们的SlideAI评测了解这种分工。

Fable 5和Mythos 5说明(6月12日): 美国商务部命令Anthropic暂停其最先进的Fable 5和Mythos 5模型的海外访问。Opus 4.8、Sonnet和Haiku不受影响。完整报道和替代方案,请参见我们的美国政府禁令详解

不应作为唯一前沿选择的场景: 你完全依赖Google Workspace智能。你需要IDE默认依赖的OpenAI专属Codex功能。

Gemini 3.x (Google)

通俗解释: Gemini 3是Google面向消费者和云的主要AI系列。它在Google已经存储你数据的地方表现最强:Gmail、Docs、Drive、搜索和Vertex AI。在许多方案中,它也能很好地处理图像、视频和长PDF。

Gemini 3系列于2025年11月开始推出。到2026年6月,许多对比表(包括OpenAI的4月对比)引用Gemini 3.1 Pro作为同级模型。Google在3.x系列内推送更新的速度快于主版本号变更。

Google Gemini app home with multimodal prompt bar and model picker on gemini.google.com

Gemini消费者应用主页,用于Workspace相关测试。截图来自厂商网站,2026年6月2日截取。UI和定价可能变更。

来自Google DeepMind的分数(Gemini 3发布材料):

  • LMArena Elo 1501: 厂商报告中的众评聊天质量。通俗含义:用户在该排行榜的盲测中更偏好它。
  • Humanity’s Last Exam 37.5%(无工具):高难度多学科考试。通俗含义:广泛知识储备强,但仍不完美。
  • GPQA Diamond 91.9%: 研究生级科学问答。通俗含义:技术问答能力非常强。
  • MMMU-Pro 81% / Video-MMMU 87.6%: 图像和视频理解测试。通俗含义:擅长读取视觉内容,与生成好莱坞级视频不同。
  • SWE-bench Verified 76.2% / Terminal-Bench 2.0 54.2%: Google开发者博客中的编程和终端分数。通俗含义:编程能力扎实,终端方面不总是领先于OpenAI。
  • WebDev Arena: Google声称在”氛围编程”UI方面领先。通俗含义:在快速Web应用原型方面有竞争力。

Gemini 3 Deep Think是面向Ultra订阅者的更高推理模式(需安全审查后)。厂商卡片显示更强的谜题类分数(如ARC-AGI-2风格任务)。

Gemini在实践中的优势

  • Workspace: 在Gmail、Docs、Drive中进行摘要和起草。
  • 搜索AI模式: 与查询相关的生成式布局。
  • Vertex AI / Gemini Enterprise: 已在Google Cloud上的团队。
  • Antigravity: Google的智能体IDE,搭配Gemini 3 Pro和计算机使用模型。

选择Gemini的场景: 你的身份、文件和计费已在Google中。多模态教学(视频、手写笔记、长PDF)是你产品的核心。

注意事项: 管理控制台按域名显示不同的SKU。营销中的”Gemini 3”可能与精确的API模型字符串不匹配。混合型公司通常内部使用Gemini,在工程工具中使用GPT-5.5或Claude。

**Gemini 3.5 Flash(2026年5月)**是该系列中更新的高效率版本。Google将其定位为以Flash级成本和速度提供接近Pro的编程质量。它支持文本、图像、视频、音频和PDF输入,并提供可调节的思考级别(从最低到最高),让你可以在速度和深度之间权衡。如果你已在Gemini生态中,想要更便宜的日常草稿而不离开生态,3.5 Flash是合理的替代选择。

2026年6月说明: Google I/O报道指向更多3.5 / Omni变体。当这些产品广泛推出时,我们添加新行而非悄悄重写历史。参见6月第1周雷达了解基于Gemini的工具发布。

DeepSeek V4

通俗解释: DeepSeek V4是中国实验室最新的开放权重系列,专为长上下文和低API成本的编程智能体而构建。你可以运行大型提示(在官方服务上最多约一百万token),而无需为每次调用支付美国前沿级的价格。

V4预览版2026年4月上线,有两个公开版本:

  • DeepSeek-V4-Pro: 大型稀疏模型(总参数约1.6T,每token活跃约49B)。目标是前沿级编程和推理。
  • DeepSeek-V4-Flash: 更小(总参数约284B,活跃约13B)。目标是快速、低成本的草稿。

两者在DeepSeek服务上默认提供百万token上下文。技术上通过稀疏注意力和token压缩来降低长上下文费用。

厂商声明: DeepSeek在其技术报告中声称在智能体编程基准测试中达到开源SOTA。它在自己的图表中将世界知识排在Gemini-3.1-Pro之下,但高于许多开源模型。V4-Flash是经济型主力。V4-Pro以低于许多美国超大规模厂商路由器标价的API价格追赶封闭前沿质量。

API机制

  • 模型ID:deepseek-v4-prodeepseek-v4-flash
  • 模式:思考和非思考(参见DeepSeek API指南)。
  • 旧版路由deepseek-chatdeepseek-reasoner将于2026年7月24日15:59 UTC下线,详见DeepSeek API定价。在生产智能体中断前迁移。

选择DeepSeek V4的场景

  • 每百万token成本影响利润(初创公司、高量代码生成、批量审查)。
  • 你想要Hugging Face上的开放权重用于本地部署或研究复现。
  • 你需要百万上下文进行日志取证、仓库级问答或文档堆栈处理。

风险管理: 受监管行业应进行供应商审查、数据驻留检查,以及在你自己的代码和你自己的客户数据策略上进行并排评估。DeepSeek不是一个现成的合规决策。

路由器提示: 如果你想要统一SDK,OpenRouter和Together上架了V4-Pro。将温度和思考标志与你之前的DeepSeek V3方案保持一致。

MiniMax M3

通俗解释: MiniMax M3是MiniMax推出的多模态基础模型,接受文本、图像和视频输入并返回文本。它配备最高一百万token上下文窗口,定价远低于美国前沿模型。MiniMax于2026年6月1日发布,作为开放权重模型。

主要亮点是长上下文、多模态输入和编程性能的组合,价格使百万token提示切实可行。MiniMax基于MSA(MiniMax稀疏注意力)构建,使用KV块选择而非完整注意力。结果是在百万token下预填充速度提升约9倍,解码速度提升约15倍,每token计算成本约为十分之一。

厂商声明(2026年6月):

  • SWE-Bench Pro达到59.0%: MiniMax称在该编程基准测试上超越了GPT-5.5和Gemini 3.1 Pro。
  • Terminal-Bench 2.1达到66.0%: 终端任务性能扎实。
  • BrowseComp达到83.5: 网络研究和引用能力有竞争力。
  • GPQA达到92.9: 研究生级科学问答能力强。

将这些视为厂商的方向性信号,而非我们的独立复测。MiniMax还指出M3在其图表中的SVG-Bench和BrowseComp上超越了Claude Opus 4.7。

定价(OpenRouter / MiniMax API,2026年6月):

  • 标准层级(最多512K输入token): 在临时上线促销期间,大约每百万输入token $0.30每百万输出token $1.20。折扣前标价约$0.60 / $2.40。
  • 受限层级(超过512K输入token): 大约每百万输入token $1.20每百万输出token $4.80

这使M3成为目前运行长上下文编程和智能体工作负载最便宜的方式之一。

选择MiniMax M3的场景

  • 你想要百万上下文进行仓库级问答、日志取证或长视频转录,而无需支付前沿级每token价格。
  • 你需要在单个提示中将多模态输入(图像、视频)与文本推理结合。
  • 你偏好可以下载并本地运行或微调的开放权重
  • 你的技术栈已通过OpenRouter路由,需要一个便宜、能力强的编程草稿模型。

完整评测含本地部署指南和量化表:MiniMax M3开源版(2026)

注意事项: 工具调用支持因提供商路由而异。在你依赖M3进行多步骤工具循环之前,使用你确切的智能体框架进行冒烟测试。许可证允许商用但有条件,在发布产品前请阅读。合规团队应对任何非美国实验室进行相同的供应商审查。

MiniMax platform home page showing model capabilities and API access on minimaxi.com

MiniMax平台主页,含M3模型访问。截图来自厂商网站,2026年6月5日截取。UI和定价可能变更。

其他值得关注的模型(2026年6月)

前沿不仅仅是OpenAI、Anthropic、Google、DeepSeek和MiniMax。以下是目前在特定任务中重要的另外五个模型。

Moonshot Kimi K2.6和K2.7 Code

K2.7 Code(2026年6月12日发布)是Moonshot AI最新的编程专用模型。它是一个1万亿参数的MoE模型,每token仅32B活跃参数,针对多轮编程会话进行优化,支持preserve_thinking模式在轮次间保留推理上下文。完整评测:Kimi K2.7 Code(2026)

重要性: K2.7 Code在MCP Mark Verified上击败Claude Opus 4.8(81.1 vs 76.4),在MLS Bench Lite上几乎追平GPT-5.5(35.1 vs 35.5)。它采用Modified MIT开源许可,支持通过MoonViT进行多模态输入(图像+视频)。API定价$0.95/$4.00每百万token,将其定位为质量高于DeepSeek V4 Pro但价格低于其的优质开源编程模型。

**K2.6(2026年5月)**仍然可用但已被取代。它在LMArena Code Arena上得分1529,支持多模态和262K上下文。截至2026年6月13日,已失去OpenRouter :free标签。编程使用K2.7 Code,免费替代方案用Qwen3-Coder(:free)。

价格信号: K2.7 Code $0.95/$4.00每百万token。K2.6约$0.68/$3.41。两者都在OpenRouter和Moonshot API上可用。

最适合: 推理持久性重要的多轮编程会话、想要带视觉输入的开源编程模型的团队,以及双语编程工作。

Zhipu GLM-5.1

它是什么: 智谱AI的旗舰编程和智能体模型。它是一个专有系统,权重有商用限制。

重要性: GLM-5.1在LMArena Code Arena上得分1534,在该基准测试上排名高于Kimi K2.6和DeepSeek V4 Pro。开发者报告称它在Claude Code框架中用于代码仓库级变更时表现出色。它也是在中英双语编程任务中最强的模型之一。

最适合: 双语环境中的编程智能体、兼容Claude Code的工作流,以及已在阿里云或智谱推理上运行的团队。

Zhipu AI platform home page showing GLM model family and developer tools on zhipuai.cn

智谱AI平台,含GLM模型访问。截图来自厂商网站,2026年6月5日截取。UI和定价可能变更。

Stepfun Step 3.7

它是什么: 阶跃星辰的多模态推理模型,2026年5月下旬发布。支持256K上下文窗口,定位于终端智能体和具身AI。

重要性: Stepfun同时推出GUI智能体模型和语音模型。Step 3.7 API已在OpenRouter上线,每百万输入token $0.20每百万输出token $1.15,是市场上最便宜的多模态路由之一。

最适合: 中文智能体任务、自动驾驶集成(Stepfun与吉利合作),以及低成本多模态草稿。

Stepfun platform home page showing Step model family and agent products on stepfun.com

阶跃星辰平台,含Step模型访问和智能体产品。截图来自厂商网站,2026年6月5日截取。UI和定价可能变更。

Moonshot Kimi chat interface showing long-document handling and model selector on kimi.moonshot.cn

Moonshot Kimi聊天界面,展示长上下文能力。截图来自厂商网站,2026年6月5日截取。UI和定价可能变更。

NVIDIA Nemotron 3 Ultra

它是什么: NVIDIA的550B参数开放混合MoE模型,配备一百万token上下文窗口。面向推理、编排和安全检查任务。完整指南:NVIDIA Nemotron 3 Ultra(2026)

重要性: Nemotron 3 Ultra在OpenRouter上可用:free后缀,这意味着在促销期间你可以零token成本运行百万上下文安全检查和智能体编排。更小的Nemotron 3 Super(120B)和Nano变体也在OpenRouter上有免费标签。

最适合: 安全护栏、智能体编排层,以及需要NVIDIA基础设施但不想付NVIDIA标价的长上下文实验。

MiMo V2.5和V2.5 Pro

它是什么: 小米MiMo V2.5系列有两个不同的成员。MiMo V2.5是一个310B参数(15B活跃)的原生多模态模型,在单一系统中理解文本、图像、视频和音频。MiMo V2.5 Pro是一个1.02T参数(42B活跃)的文本专注型智能体编程专家。两者都配备一百万token上下文窗口和开放权重。

重要性: MiMo V2.5是小米对Gemini 3 Pro在多模态任务上的回应。厂商图表显示它在视频理解方面匹配Gemini 3 Pro(Video-MME 83.5 vs 84.2),在图像推理方面(MMMU-Pro 88.5 vs 86.4),且成本只是后者的一小部分。MiMo V2.5 Pro是目前最强的开放权重编程智能体之一。它在SWE-Bench Pro上得分57.2%,在Terminal-Bench 2.0上得分68.4%,同时每个任务使用的token比Claude Opus 4.6或GPT-5.4少约40-60%。两者均采用MIT许可,在Hugging Face上可用。

定价(2026年6月):

  • MiMo V2.5:每百万输入token $0.14每百万输出token $0.28
  • MiMo V2.5 Pro:每百万输入token $1.00每百万输出token $3.00

这使基础版V2.5成为市场上最便宜的多模态模型之一,Pro版成为最便宜的前沿级编程智能体之一。

最适合:

  • MiMo V2.5: 多模态草稿、视频分析、图表理解,以及在一个提示中需要图像、视频和音频的低成本长上下文问答。
  • MiMo V2.5 Pro: 编程智能体、自主工具循环和长期软件工程,当DeepSeek V4限速时,或当你想在路由器栈中添加第二个开放权重供应商时。

注意事项: 小米仍在建设其国际API和社区生态。工具调用行为可能与OpenAI风格的SDK不同。在正式使用前测试你确切的智能体框架。

Xiaomi MiMo V2.5 product page showing multimodal capabilities and benchmark scores on mimo.xiaomi.com

小米MiMo V2.5产品页面,含基准测试亮点。截图来自厂商网站,2026年6月5日截取。UI和定价可能变更。

Mistral(前沿产品线)

通俗解释: Mistral是一家欧洲AI公司,提供快速、开发者友好的模型。部分权重开放,部分为专有。当你需要EU友好托管、快速API切换,或在将工作发送到GPT-5.5或Claude之前需要更便宜的草稿模型时,该品牌很受欢迎。

命名变化很快:Large、Medium、Codestral、Devstral和合作伙伴变体。在本页面中,Mistral前沿版指的是你的API控制台在2026年6月显示的最新Large或Codestral版本,而非每个旧检查点。

Mistral为何保留在”最新模型”页面上

  • 数据驻留: EU客户通常需要在欧洲区域进行推理。Mistral面向该需求营销。
  • 路由器生态: OpenRouter、Groq和Together很早就添加了Mistral模型ID。当GPT-5.5或Claude限速时,它们是替代选项。
  • 专用编程模型: Codestral品牌模型在IDE自动补全和小型智能体步骤中仍然流行,这些场景下使用完整的Opus或GPT-5.5过于奢侈。

实用选择规则

  1. .env中锁定精确的模型字符串(如mistral-large-2411这样的ID会随版本变化)。
  2. 使用Mistral进行草稿处理。如果质量偏移,使用美国前沿模型进行最终检查。
  3. 启用智能体工具时阅读Mistral的安全和能力卡片。较小的模型更容易产生工具参数幻觉。

选择Mistral的场景: 你在EU构建产品,想要供应商多样性但不训练自己的权重,或你的OpenRouter账单在GPT-5.5上飙升需要降低成本。

不应作为唯一前沿模型的场景: 你需要OpenAI和Anthropic在Codex和Claude Code中优化的计算机使用分数。

本地模型:Qwen 3.6 vs Gemma 4

如果你想在自己的硬件上运行前沿级模型,2026年6月有两个系列占主导地位:Qwen 3.6Gemma 4

Qwen 3.6 (Alibaba)

重要性: Qwen 3.6是当前开放权重编程的领先者。Qwen3.6-27B密集模型在SWE-bench Verified上得分77.2%Qwen3.6-35B-A3B MoE在AIME 2026上得分92.7%,在GPQA Diamond上得分86.0%。全部采用Apache 2.0许可。

硬件适配:

  • Qwen3.6-27B: 在24 GB GPU(RTX 3090/4090)上运行,约50 tok/s。
  • Qwen3.6-35B-A3B: 每token仅约3.1B活跃参数,因此量化后也能装入24 GB显卡。这是单GPU前沿编程的最佳选择。

最适合: 编程智能体、长上下文仓库问答(原生256K,可扩展至1M),以及需要Apache 2.0权重且无许可证摩擦的团队。preserve_thinking功能帮助智能体工具循环跨轮次保持上下文。

Qwen model collection on Hugging Face showing Qwen3.6 variants and download stats

Hugging Face上的Qwen模型中心,含开放权重下载。截图于2026年6月5日截取。

Gemma 4 (Google DeepMind)

重要性: Gemma 4是Google首个开放权重MoE系列,尺寸从E2B(微型)到31B密集型。所有尺寸均为Apache 2.0。31B密集模型在MMLU Pro上得分85.2%,在LiveCodeBench上得分80%,而E2B和E4B尺寸增加了原生音频理解(Qwen 3.6不具备此能力)。

硬件适配:

  • Gemma 4 E2B/E4B: 8 GB内存笔记本。适合边缘演示和基础多模态任务。
  • Gemma 4 26B-A4B: 16 GB显存。每token仅使用4B活跃参数的MoE。
  • Gemma 4 31B: 4-bit量化需24 GB显存。推理和数学的旗舰。

最适合: 数学任务(AIME 89.2%)、多模态广度(小尺寸上的文本+图像+视频+音频)、多语言工作(140+种语言),以及想要Google训练栈支持本地部署的团队。

Gemma 4 31B model page on Hugging Face showing architecture details and download stats

Hugging Face上的Gemma 4 31B。截图于2026年6月5日截取。

如何选择

你的优先级首选备选
编程 / SWE-benchQwen 3.6-27B或35B-A3BGemma 4 31B
数学 / MMLUGemma 4 31BQwen 3.6-35B-A3B
多模态+音频Gemma 4 E2B/E4B或31B(Qwen 3.6无音频输入)
单张24 GB GPUQwen 3.6-35B-A3BGemma 4 26B-A4B
笔记本/边缘Gemma 4 E4BQwen 3.5-9B
智能体工具循环Qwen 3.6-27B(preserve_thinking)Gemma 4 31B

实用提示: 两个系列都通过Ollama、vLLM和llama.cpp运行。如果你只有一张GPU,编程用Qwen3.6-35B-A3B,通用推理用Gemma 4 31B。如果有两张GPU或工作站,同时运行两者,在你实际的代码和文档上做A/B测试。

哪个模型适合哪种工作?

工作首选备选AI Tools Radar搭配
在IDE / Codex中交付功能GPT-5.5、GLM-5.1、DeepSeek V4-ProClaude Opus 4.8、MiniMax M3、Kimi K2.7 Code构建者赛道评测(Devin Desktop、Cursor)
高管备忘录或董事会报告Claude Opus 4.8、GPT-5.5 ProGemini 3 Pro除非研究密集型,否则不用Manus
从要点生成幻灯片Gemini或Claude做大纲SlideAI、Gamma、DokieSlideAI评测
异步网络研究智能体GPT-5.5或Claude搭配智能体框架Gemini用于Google原生来源Manus AI评测
客服智能体GPT-5.5、Gemini 3领域微调如果你对标厂商评估,测试Tau2风格的电信流程
低成本批量代码审查MiniMax M3、Kimi K2.7 Code、DeepSeek V4-FlashMistral Large、Stepfun 3.7通过路由器仅将失败文件提升到GPT-5.5
法律/金融文档提取Claude Opus 4.8GPT-5.5 Pro人工审查仍然必要
多模态学习(视频+PDF)Gemini 3 Pro、MiMo V2.5、MiniMax M3、Kimi K2.7 CodeGPT-5.5(在启用的地方带视觉)课堂风格提示,非智能体
长上下文仓库问答(百万token)MiniMax M3、DeepSeek V4-ProNemotron 3 Ultra(免费层级)如果结构重要,分块仍优于暴力方法
中文双语编程GLM-5.1、Kimi K2.7 CodeQwen3-Next、Stepfun 3.7在中文提示上验证工具调用
本地编程智能体(自托管)Qwen 3.6-27B / 35B-A3BGemma 4 31BOllama或vLLM;验证工具调用
本地推理/数学(自托管)Gemma 4 31BQwen 3.6-35B-A3BOllama或vLLM;量化以适配显存
仅EU的API要求Mistral前沿版Gemini EU区域与法务确认DPA

OpenRouter和API路由(2026年6月)

大多数团队从不直接接触基础模型。他们使用应用(ChatGPT、Claude、Cursor、Manus)或转发请求的路由器

OpenRouter(以及Together、Groq、Fireworks等同类)在一个OpenAI风格的API后面暴露多个模型ID。2026年的典型模式:

  1. 对请求分类: 草稿vs最终版,公开vs机密,实时vs隔夜批量。
  2. 草稿路由minimax/minimax-m3moonshotai/kimi-k2.7-codedeepseek-v4-flash或中端Mistral模型。
  3. 最终版路由gpt-5.5claude-opus-4-8glm-5.1gemini-3.1-pro,取决于你最担心什么(代码bug vs 语气偏移 vs 仅Google工具)。
  4. 按任务记录模型ID,以便在厂商重命名默认值时审计成本。

我们观察到的故障模式

  • 应用悄悄升级默认值(GPT-5.4到GPT-5.5),在简单提示上质量未提升但支出跳增。
  • 路由器在2026年6月DeepSeek下线后缓存旧ID。
  • Manus等智能体隐藏后端。阅读发布说明智能体设置。

我们正在完成6月日历上的专门OpenRouter免费模型指南(参见6月第1周雷达)。在此之前,将本页面作为能力图谱,雷达作为工具评判。

2026年最佳免费和低成本AI模型

不是每个人都需要每月$20的订阅。以下是如何以更低成本获得强大输出。

有效的免费层级

  • ChatGPT Free运行GPT-5.5级模型,有速率限制。适合偶尔的起草和轻度编程问题。
  • Claude Free提供Sonnet级模型访问。在我们的测试中,长文档处理优于ChatGPT Free。
  • Gemini Free在Google应用中包含3.x系列。通常是Workspace用户的默认选择。
  • MiniMax M3开放权重和低API定价使其成为运行长上下文编程草稿最便宜的方式之一。完整评测:MiniMax M3开源版(2026)
  • Kimi K2.7 Code是最新的开放权重编程专用模型。没有免费层级,但在智能体基准测试上以远低于GPT-5.5的价格具有竞争力。完整评测
  • Kimi K2.6截至6月13日已失去OpenRouter上的:free标签。编程用K2.7 Code,免费用Qwen3-Coder。
  • NVIDIA Nemotron 3 UltraNemotron 3 Super均在OpenRouter上提供:free标签,可零token成本进行百万上下文实验。
  • DeepSeek V4-FlashMiMo V2.5 API定价是编程和智能体任务中最低的之一。DeepSeek服务上有免费聊天模式。
  • Mistral开放权重可在GPU本地运行或通过Groq免费层级在便宜的路由器上运行。

何时付费

  • 编程智能体需要GPT-5.5 Pro、Claude Opus或DeepSeek V4-Pro才能进行可靠的多步骤工作。
  • 超过100K token的长上下文任务通常需要付费层级或API密钥。
  • SSO、审计日志和数据退出等企业功能在每个厂商都是付费墙后的。

成本经验法则: 从免费开始。只有当你在实际任务中碰到速率限制或准确度瓶颈时才升级到付费。不要为简单的问答预购前沿层级。

视频和多模态模型(2026年6月说明)

文本前沿模型与视频生成器(Kling、Veo级工具、Grok Imagine、runway风格的UGC应用)不同。Video-MMMU等分数显示的是Gemini在理解视频方面的实力,而不总是生成电影级片段的能力。

AI Tools Radar策略: 我们在每周雷达文章中跟踪视频工具,而非在此进行完整的生成视频排行。对于直接对比选择,阅读Kling AI 3.0 vs Grok vs Veo(2026)。如果两者都需要,将Gemini或GPT-5.5用于脚本和分镜,配合创作者赛道工具进行渲染。

多模态提示: 当厂商引用图像或视频分数时,检查你的方案是否在API中包含该模态,还是仅在消费者应用中。许多企业只有纯文本合同。

如何在30分钟内更新你的技术栈

  1. 列出五个重复性任务(代码、幻灯片、邮件分类、客服宏、研究简报)。
  2. 记下每个任务当前使用的应用(不是你假设的模型)。
  3. 打开厂商发布说明查看该应用2026年4月至6月的默认模型。
  4. 对每个任务运行一次A/B测试,使用新的模型名称(相同的评判标准:正确性、语气、工具使用、时间)。
  5. 检查成本仪表板了解token用量。GPT-5.5声称高效,但智能体循环仍可能导致用量暴增。
  6. 更新内部文档,为路由器和CI机器人锁定模型ID。
  7. 如果延迟、拒绝或支出在你的评判标准上没有质量提升的情况下上升,回滚

内容差距和内部链接

许多文章列出模型却不指出你实际点击的工具。AI Tools Radar弥补了这个差距:

如果你希望扩展某个特定的模型行,发布后在我们的网站上搜索latest ai models 2026加上厂商名称。

更新日志

  • 2026-06-13: 6月13日刷新。将Kimi K2.7 Code(6月12日发布)添加到对比表,含基准测试、定价和preserve_thinking详情。更新了Kimi K2.6条目(失去OpenRouter :free标签)。在工作路由表和免费模型推荐中用K2.7 Code替换了K2.6。链接到MiniMax M3、Kimi K2.7 Code和美国政府封禁Fable 5/Mythos 5的完整评测。在Claude Opus部分添加了Fable 5禁令说明。
  • 2026-06-05: 6月重大刷新。将MiniMax M3(6月1日)、Moonshot Kimi K2.6、Zhipu GLM-5.1、Stepfun Step 3.7、NVIDIA Nemotron 3 Ultra、MiMo V2.5 Pro添加到对比表,并新增”其他值得关注的模型”章节。将MiMo V2.5提升为与DeepSeek V4并列的开放权重低成本领先者。在Gemini部分添加了Gemini 3.5 Flash(5月19日)。新增”本地模型”章节涵盖Qwen 3.6 vs Gemma 4 31B vs Gemma 4 12B。扩展工作路由表增加双语编程、长上下文和本地自托管行。更新了OpenRouter路由、免费/低成本说明和FAQ。从低成本推荐中移除了Llama。
  • 2026-06-05: 将Gemma 4 12B添加到对比表。链接到Gemma 4 12B本地部署指南
  • 2026-06-02: 事实核查刷新。从OpenAI GPT-5.5Anthropic Opus 4.8DeepSeek V4预览确认发布日期和标题基准测试。将DeepSeek旧版API下线时间锁定为2026年7月24日15:59 UTC。
  • 2026-06-02: 全面改写为通俗语言。添加了GPT-5.5(2026年4月OpenAI)、Claude Opus 4.8(2026年5月Anthropic)、DeepSeek V4(2026年4月)、Mistral前沿说明、OpenRouter章节、工作表、30分钟刷新指南、八个FAQ。
  • 2026-05-27: 初始信息枢纽框架,含简短对比表。

常见问题

8 个问题
2026年最好的AI模型是什么?

没有单一赢家。GPT-5.5在多项厂商公布的编程和计算机使用基准测试中领先。Claude Opus 4.8在精细写作、法律风格工作和诚实自查方面表现突出。Gemini 3.x适合Google Workspace用户。DeepSeek V4和MiMo V2.5 Pro是开源开放权重编程实验的低成本首选。MiMo V2.5是视频、图像和音频理解的低价多模态选项。MiniMax M3是百万上下文编程和多模态工作的低价挑战者。Kimi K2.7 Code是最新的开放权重编程专用模型,支持preserve_thinking多轮会话。GLM-5.1在双语编程方面表现优异。对于本地自托管,Qwen 3.6-27B/35B-A3B是单GPU上最好的开源编程模型,Gemma 4 31B在数学和多模态广度方面领先。根据任务、合规要求和数据位置选择。

GPT-5.5比GPT-4好吗?

OpenAI将GPT-5.5(2026年4月)定位为智能体编程、电子表格、浏览器任务和长时间计算机使用的重大升级。如果你在某个应用中仍然看到GPT-4的名称,请检查你的订阅计划和工作区管理设置。许多产品在不更改UI名称的情况下自动升级了默认模型。

什么时候应该选择Claude Opus 4.8而不是GPT-5.5?

当语气、引用规范性、对不良方案的质疑能力或长会话写作比峰值基准分数更重要时,选择Claude。当你主要使用Codex、需要办公自动化、或希望在一个厂商合同中获得OpenAI最新的智能体技术栈时,选择GPT-5.5。

什么时候应该使用DeepSeek V4?

当API成本、百万token上下文或自托管开放权重很重要,且你的安全团队批准了该供应商时,使用DeepSeek V4。在切换生产环境智能体之前,先在你的私有仓库上运行A/B测试。在DeepSeek文档中注明的2026年6月API下线日期之前,迁移旧版deepseek-chat路由。

Gemini 3能替代Google用户的GPT吗?

对于使用Gmail、Docs、Drive和Vertex AI的团队,Gemini 3.x通常是默认的智能层。它不能替代非Google工具中的GPT。混合架构很常见:在Workspace中使用Gemini,在IDE和路由器中使用GPT或Claude。

OpenRouter是什么,我需要它吗?

OpenRouter是一个模型路由器。你发送一种API格式,按请求切换模型ID。当你想用DeepSeek或Mistral进行低成本草稿,再用GPT-5.5或Claude进行最终步骤的高级处理时很有用。如果你只使用一个厂商的应用,则不需要它。

这个页面应该多久更新一次?

我们在主要厂商发布后两周内或Search Console显示某个模型名称搜索量上升时更新updatedDate。2026年6月的更新反映了GPT-5.5(4月)、Claude Opus 4.8(5月)、DeepSeek V4预览(4月)、MiniMax M3(6月)、Kimi K2.7 Code(6月12日)、Gemini 3.5 Flash(5月)、GLM-5.1和Stepfun 3.7。

Manus等工具使用的是哪个模型?

智能体产品自行选择后端,可能每周都会更换。Manus和类似的智能体在用户体验层面是模型无关的。阅读我们的Manus评测了解任务适配性,然后将你的智能体设置映射到本文的对应行。

更多模型

查看全部