Comparison chart of latest AI models GPT, Claude, Gemini, and DeepSeek in 2026

模型

2026年最佳AI模型：GPT-5.5 vs Claude vs DeepSeek vs Gemini [排名]

2026年6月哪个AI模型最好？我们对比了GPT-5.5、Claude Opus 4.8、DeepSeek V4、Gemini 3和Mistral在编程、写作和价格方面的表现。内含最新排名。

AI Tools Radar Editorial 2026年5月27日更新于 2026年6月13日 7 分钟阅读

简答（2026年6月）： 没有一个”最好的”AI能胜任所有工作。领先者按任务划分。

GPT-5.5是OpenAI生态中编程智能体、终端操作和办公任务的首选。Claude Opus 4.8是精细写作和已信任Anthropic的团队的升级选择。Gemini 3.x最适合文件和邮件已在Google中的场景。DeepSeek V4和MiMo V2.5 Pro是编程实验和大上下文的低成本开放权重选项。MiMo V2.5是视频、图像和音频理解的低价多模态选项。MiniMax M3是新的挑战者，以远低于市场的价格组合了百万上下文、多模态输入和接近前沿水平的编程能力。GLM-5.1和Kimi K2.6在双语编程和长文档处理方面领先。Qwen 3.6是你能在单张24 GB GPU上运行的最佳开源编程模型。Gemma 4 31B是数学和多模态广度的最强本地选项。Mistral在EU友好托管和快速API切换方面有优势。

使用下方表格，然后跳转到与你工作匹配的章节。

最后更新：2026年6月13日。本页面是一个持续维护的信息枢纽，不是一次性列表。

实时对比表

模型	厂商	最佳用途（实用）	API/访问信号	注意事项
GPT-5.5	OpenAI	编程智能体、电子表格、多步骤计算机使用	ChatGPT Plus+、Codex、API (`gpt-5.5`)	网络安全防护可能拒绝某些安全提示；企业部署进度不同
GPT-5.5 Pro	OpenAI	高难度研究、法律级深度、BrowseComp密集型任务	Pro / Business / Enterprise	更高成本层级；并非所有应用默认可用
Claude Opus 4.8	Anthropic	写作、分析、浏览器智能体、诚实的错误标记	Claude应用、API (`claude-opus-4-8`)、Claude Code	Opus定价；高努力模式消耗更多token
Gemini 3 Pro / 3.1 Pro	Google	Workspace、多模态学习、搜索AI模式	Gemini应用、Vertex AI、AI Studio	管理控制台中SKU名称会变化
DeepSeek V4-Pro	DeepSeek	编程智能体、百万上下文、开放权重	`deepseek-v4-pro`，聊天中Expert模式	受监管行业需合规审查
DeepSeek V4-Flash	DeepSeek	快速低成本编程草稿	`deepseek-v4-flash`，Instant模式	在最难的智能体评估中与Pro不完全相同
Mistral (Large / Codestral前沿版)	Mistral	EU数据驻留选项、路由器友好的API	Mistral API、合作伙伴、OpenRouter	命名相似的模型很多；锁定精确ID
MiniMax M3	MiniMax	编程智能体、百万上下文、多模态（文本、图像、视频输入）、开放权重	MiniMax API、OpenRouter (`minimax/minimax-m3`)、HF权重	512K保证上下文；MSA稀疏注意力；在你的技术栈上验证工具调用
Gemini 3.5 Flash	Google	以Flash成本和速度实现接近Pro的编程质量、多模态	Gemini应用、Vertex AI、AI Studio	默认中等思考深度；在管理控制台中检查SKU名称
Moonshot Kimi K2.7 Code	Moonshot AI	优质开放权重编程：1T MoE、32B活跃参数、preserve_thinking	Moonshot API、OpenRouter (`moonshotai/kimi-k2.7-code`)、HF权重	强制思考模式；256K上下文；$0.95/$4.00每百万token
Moonshot Kimi K2.6	Moonshot AI	长文档、多模态、编程草稿（现已被K2.7 Code取代）	Moonshot API、OpenRouter (`moonshotai/kimi-k2.6`)	失去`:free`标签；编程用K2.7 Code，免费用Qwen3-Coder
Zhipu GLM-5.1	Zhipu AI	编程、智能体任务、兼容Claude Code	Zhipu API、OpenRouter、阿里云	权重商用有限制；LMArena Code Arena分数优异
Stepfun Step 3.7	Stepfun	多模态推理、终端智能体、自动驾驶舱	Stepfun API、OpenRouter (`stepfun/step-3.7-flash`)	256K上下文；在中文任务和具身AI方面表现突出
NVIDIA Nemotron 3 Ultra	NVIDIA	安全检查、编排、百万上下文智能体任务	NVIDIA API、OpenRouter (`nvidia/nemotron-3-ultra-550b-a55b`)	总参数550B；OpenRouter有免费`:free`路由；注意延迟
MiMo V2.5	Xiaomi	原生多模态（文本、图像、视频、音频）、百万上下文、开放权重	小米API、OpenRouter、Hugging Face	310B/15B MoE；在视频任务上匹配Gemini 3 Pro
MiMo V2.5 Pro	Xiaomi	智能体编程、长期任务、百万上下文、开放权重	小米API、OpenRouter	1T/42B MoE；SWE-Bench Pro 57.2%；比竞品少用40-60%的token
Qwen 3.6-27B / 35B-A3B	Alibaba	最佳开源编程、智能体任务、单GPU可运行	HF `Qwen/Qwen3.6-27B`、Ollama、vLLM	Apache 2.0；35B-A3B适配24 GB显存；256K上下文
Gemma 4 31B	Google DeepMind	本地多模态（文本、图像、音频）、数学、256K上下文	HF `google/gemma-4-31b-it`、Ollama `gemma4:31b`	4-bit量化需24 GB显存；编程不如Qwen 3.6
Gemma 4 12B Unified	Google DeepMind	轻量级本地多模态、16 GB笔记本部署、Apache 2.0	HF `google/gemma-4-12B-it`、Ollama `gemma4:12b`、LiteRT-LM	KV缓存显存峰值；Ollama 12b标签仅文本+图像；参见Gemma 4 12B指南

如何解读别处的基准测试说法： 厂商喜欢在命名测试上展示百分比得分。以下是其中几个测试的通俗含义。

Terminal-Bench： 模型能否逐步执行真实的命令行任务？
SWE-Bench： 模型能否修复开源GitHub项目中的真实bug？
GDPval： 模型在混合办公类知识工作中表现如何？
BrowseComp： 模型在网络搜索和引用方面表现如何？

分数越高通常意味着模型完成了更多测试内容。将数字视为参考，而非单一的智商分数。务必在你自己的工作中测试。

本页面的评分方式

AI Tools Radar不是一个重跑每个厂商排行榜的实验室。我们阅读发布公告、系统卡和定价页面，然后将它们翻译成为选择模型和工具的人能理解的语言。

我们包含什么

为我们三个赛道（智能体、创作者/演示、构建者）中的工具提供动力的前沿模型。
仅当厂商针对该模型发布了基准名称的通俗解释。
链接到更深入的AI Tools Radar评测和每周雷达文章，让你能在一次访问中选择工具和模型。

我们跳过什么

没有任务映射的大型模型列表。
不指定工作场景就称某个模型”最好”。
完整的视频模型对决（那些内容在雷达文章中）。

更新时机： 重大发布（2026年4月GPT-5.5、2026年5月Claude Opus 4.8、2026年4月DeepSeek V4、2026年6月MiniMax M3）或latest ai models 2026搜索热度上升时。

GPT-5.5 (OpenAI)

通俗解释： GPT-5.5是OpenAI最新的通用AI大脑，专为跨多步骤的工作而优化。它的设计目标是读取混乱的指令、制定计划、使用工具（终端、浏览器、电子表格）、检查自身输出并持续执行。把它想象成”数字同事”，而不是”回答一个问题的聊天框”。

OpenAI于2026年4月23日发布。API访问在4月24日开放。

厂商引用的分数（2026年4月）： OpenAI称GPT-5.5在编程和桌面任务上超越了前一版本。来自其公告的示例：

Terminal-Bench 2.0达到82.7%： 多步骤终端操作优于GPT-5.4（75.1%）。通俗含义：更频繁地正确执行shell工作流。
SWE-Bench Pro达到58.6%： 修复更多真实GitHub问题。通俗含义：代码仓库修复能力更强。
GDPval达到84.9%胜或平： 在混合专业任务中表现稳定。通俗含义：跨岗位类型表现不错，不仅限于代码。
OSWorld-Verified达到78.7%： 更可靠地操作模拟桌面。通俗含义：UI点击和应用控制有所改善。
BrowseComp达到84.4%（GPT-5.5 Pro为90.1%）：带引用的网络研究。通俗含义：深度检索任务表现更好。

OpenAI还发布了与Claude Opus 4.7和Gemini 3.1 Pro的并排对比。用于了解趋势方向，这不是我们的独立复测。

日常实际意义： 如果你想要一个模型来运行终端、修补代码仓库、制作幻灯片或表格、驱动UI，GPT-5.5就是针对你的。OpenAI声称在Codex任务上达到GPT-5.4级速度但使用更少token。当你按百万token付费时这很重要。

你能在哪里感受到它

ChatGPT（Plus及以上）：面向专业工作的更深度”思考”风格回答。
Codex： 在循环中构建、重构、调试和验证代码。
API： 合作伙伴大规模交付带安全规则的gpt-5.5和gpt-5.5-pro。

选择GPT-5.5的场景： 你已经标准化使用OpenAI。你的团队在Codex或使用OpenAI后端的Cursor中工作。你需要在一个循环中同时处理计算机使用和办公文件。

暂停或搭配使用的场景： 法务需要另一家供应商。你只需要大规模低成本翻译。你想要Anthropic风格的对不良方案的质疑。许多团队用GPT-5.5处理代码，用Claude处理文章。

安全提示： OpenAI对这一代模型的网络和生物风险进行了评级。更严格的网络安全过滤器可能会拒绝某些安全提示。防御者可以申请Trusted Access for Cyber，如果拒绝回复阻碍了合法的安全加固工作。

Claude Opus 4.8 (Anthropic)

通俗解释： Claude Opus 4.8是Anthropic的顶级模型，面向精细语言工作和长时间智能体会话。它的设计目标是写得好、通过文档进行推理、在需要时使用浏览器，以及标记自身错误而非掩饰。

Anthropic于2026年5月28日发布。API定价与Opus 4.7相同：每百万输入token $5，每百万输出token $25。更快的层级为**$10 / $50**每百万token。核心卖点是信任和吞吐量，而非价格战。

分数和声明（厂商公布）： Anthropic的系统卡引用了编程、智能体、推理和知识工作方面的提升。发布中的第三方引用提到Online-Mind2Web达到84%（通俗含义：浏览网页并执行操作的能力更强）和法律智能体基准测试。在Terminal-Bench 2.1上，Anthropic注意到GPT-5.5使用Codex CLI达到83.4%，而自身使用不同的测试框架。测试框架的选择会影响分数。 尽可能使用相同的测试设置来比较模型。

用户注意到的行为

诚实度： Opus 4.8忽略已知代码缺陷的概率大幅降低（厂商评估引用的改善幅度约为Opus 4.7的4倍）。
努力控制： 在Claude.ai和Cowork中调高或调低努力程度。更深入的分析消耗速度和速率限制。
动态工作流（Claude Code）： 用于大型迁移的研究预览，支持并行子智能体。目标是以测试通过为标准的代码仓库级变更。
快速模式： 在快速价格层级下速度提升2.5倍，比之前的Opus快速模式更便宜。

选择Claude Opus 4.8的场景： 长报告、法律或金融文档、面向客户的写作，或必须质疑薄弱指令的智能体。使用Claude Code、Cursor、Devin或Cowork的团队通常首先升级到这里。

Claude.ai home screen with Opus 4.8 model selector and chat input on anthropic.com — Claude.ai主页，含Opus级模型访问。截图来自厂商网站，2026年6月2日截取。UI和定价可能变更。

将Claude与工具搭配使用，而非替代工具： Claude不能替代SlideAI、Gamma或Dokie进行幻灯片布局。它提供文字和结构，演示工具提供视觉呈现。参见我们的SlideAI评测了解这种分工。

Fable 5和Mythos 5说明（6月12日）： 美国商务部命令Anthropic暂停其最先进的Fable 5和Mythos 5模型的海外访问。Opus 4.8、Sonnet和Haiku不受影响。完整报道和替代方案，请参见我们的美国政府禁令详解。

不应作为唯一前沿选择的场景： 你完全依赖Google Workspace智能。你需要IDE默认依赖的OpenAI专属Codex功能。

Gemini 3.x (Google)

通俗解释： Gemini 3是Google面向消费者和云的主要AI系列。它在Google已经存储你数据的地方表现最强：Gmail、Docs、Drive、搜索和Vertex AI。在许多方案中，它也能很好地处理图像、视频和长PDF。

Gemini 3系列于2025年11月开始推出。到2026年6月，许多对比表（包括OpenAI的4月对比）引用Gemini 3.1 Pro作为同级模型。Google在3.x系列内推送更新的速度快于主版本号变更。

Google Gemini app home with multimodal prompt bar and model picker on gemini.google.com — Gemini消费者应用主页，用于Workspace相关测试。截图来自厂商网站，2026年6月2日截取。UI和定价可能变更。

来自Google DeepMind的分数（Gemini 3发布材料）：

LMArena Elo 1501： 厂商报告中的众评聊天质量。通俗含义：用户在该排行榜的盲测中更偏好它。
Humanity’s Last Exam 37.5%（无工具）：高难度多学科考试。通俗含义：广泛知识储备强，但仍不完美。
GPQA Diamond 91.9%： 研究生级科学问答。通俗含义：技术问答能力非常强。
MMMU-Pro 81% / Video-MMMU 87.6%： 图像和视频理解测试。通俗含义：擅长读取视觉内容，与生成好莱坞级视频不同。
SWE-bench Verified 76.2% / Terminal-Bench 2.0 54.2%： Google开发者博客中的编程和终端分数。通俗含义：编程能力扎实，终端方面不总是领先于OpenAI。
WebDev Arena： Google声称在”氛围编程”UI方面领先。通俗含义：在快速Web应用原型方面有竞争力。

Gemini 3 Deep Think是面向Ultra订阅者的更高推理模式（需安全审查后）。厂商卡片显示更强的谜题类分数（如ARC-AGI-2风格任务）。

Gemini在实践中的优势

Workspace： 在Gmail、Docs、Drive中进行摘要和起草。
搜索AI模式： 与查询相关的生成式布局。
Vertex AI / Gemini Enterprise： 已在Google Cloud上的团队。
Antigravity： Google的智能体IDE，搭配Gemini 3 Pro和计算机使用模型。

选择Gemini的场景： 你的身份、文件和计费已在Google中。多模态教学（视频、手写笔记、长PDF）是你产品的核心。

注意事项： 管理控制台按域名显示不同的SKU。营销中的”Gemini 3”可能与精确的API模型字符串不匹配。混合型公司通常内部使用Gemini，在工程工具中使用GPT-5.5或Claude。

**Gemini 3.5 Flash（2026年5月）**是该系列中更新的高效率版本。Google将其定位为以Flash级成本和速度提供接近Pro的编程质量。它支持文本、图像、视频、音频和PDF输入，并提供可调节的思考级别（从最低到最高），让你可以在速度和深度之间权衡。如果你已在Gemini生态中，想要更便宜的日常草稿而不离开生态，3.5 Flash是合理的替代选择。

2026年6月说明： Google I/O报道指向更多3.5 / Omni变体。当这些产品广泛推出时，我们添加新行而非悄悄重写历史。参见6月第1周雷达了解基于Gemini的工具发布。

DeepSeek V4

通俗解释： DeepSeek V4是中国实验室最新的开放权重系列，专为长上下文和低API成本的编程智能体而构建。你可以运行大型提示（在官方服务上最多约一百万token），而无需为每次调用支付美国前沿级的价格。

V4预览版于2026年4月上线，有两个公开版本：

DeepSeek-V4-Pro： 大型稀疏模型（总参数约1.6T，每token活跃约49B）。目标是前沿级编程和推理。
DeepSeek-V4-Flash： 更小（总参数约284B，活跃约13B）。目标是快速、低成本的草稿。

两者在DeepSeek服务上默认提供百万token上下文。技术上通过稀疏注意力和token压缩来降低长上下文费用。

厂商声明： DeepSeek在其技术报告中声称在智能体编程基准测试中达到开源SOTA。它在自己的图表中将世界知识排在Gemini-3.1-Pro之下，但高于许多开源模型。V4-Flash是经济型主力。V4-Pro以低于许多美国超大规模厂商路由器标价的API价格追赶封闭前沿质量。

API机制

模型ID：deepseek-v4-pro、deepseek-v4-flash。
模式：思考和非思考（参见DeepSeek API指南）。
旧版路由deepseek-chat和deepseek-reasoner将于2026年7月24日15:59 UTC下线，详见DeepSeek API定价。在生产智能体中断前迁移。

选择DeepSeek V4的场景

每百万token成本影响利润（初创公司、高量代码生成、批量审查）。
你想要Hugging Face上的开放权重用于本地部署或研究复现。
你需要百万上下文进行日志取证、仓库级问答或文档堆栈处理。

风险管理： 受监管行业应进行供应商审查、数据驻留检查，以及在你自己的代码和你自己的客户数据策略上进行并排评估。DeepSeek不是一个现成的合规决策。

路由器提示： 如果你想要统一SDK，OpenRouter和Together上架了V4-Pro。将温度和思考标志与你之前的DeepSeek V3方案保持一致。

MiniMax M3

通俗解释： MiniMax M3是MiniMax推出的多模态基础模型，接受文本、图像和视频输入并返回文本。它配备最高一百万token上下文窗口，定价远低于美国前沿模型。MiniMax于2026年6月1日发布，作为开放权重模型。

主要亮点是长上下文、多模态输入和编程性能的组合，价格使百万token提示切实可行。MiniMax基于MSA（MiniMax稀疏注意力）构建，使用KV块选择而非完整注意力。结果是在百万token下预填充速度提升约9倍，解码速度提升约15倍，每token计算成本约为十分之一。

厂商声明（2026年6月）：

SWE-Bench Pro达到59.0%： MiniMax称在该编程基准测试上超越了GPT-5.5和Gemini 3.1 Pro。
Terminal-Bench 2.1达到66.0%： 终端任务性能扎实。
BrowseComp达到83.5： 网络研究和引用能力有竞争力。
GPQA达到92.9： 研究生级科学问答能力强。

将这些视为厂商的方向性信号，而非我们的独立复测。MiniMax还指出M3在其图表中的SVG-Bench和BrowseComp上超越了Claude Opus 4.7。

定价（OpenRouter / MiniMax API，2026年6月）：

标准层级（最多512K输入token）： 在临时上线促销期间，大约每百万输入token $0.30，每百万输出token $1.20。折扣前标价约$0.60 / $2.40。
受限层级（超过512K输入token）： 大约每百万输入token $1.20，每百万输出token $4.80。

这使M3成为目前运行长上下文编程和智能体工作负载最便宜的方式之一。

选择MiniMax M3的场景

你想要百万上下文进行仓库级问答、日志取证或长视频转录，而无需支付前沿级每token价格。
你需要在单个提示中将多模态输入（图像、视频）与文本推理结合。
你偏好可以下载并本地运行或微调的开放权重。
你的技术栈已通过OpenRouter路由，需要一个便宜、能力强的编程草稿模型。

完整评测含本地部署指南和量化表：MiniMax M3开源版（2026）。

注意事项： 工具调用支持因提供商路由而异。在你依赖M3进行多步骤工具循环之前，使用你确切的智能体框架进行冒烟测试。许可证允许商用但有条件，在发布产品前请阅读。合规团队应对任何非美国实验室进行相同的供应商审查。

MiniMax platform home page showing model capabilities and API access on minimaxi.com — MiniMax平台主页，含M3模型访问。截图来自厂商网站，2026年6月5日截取。UI和定价可能变更。

其他值得关注的模型（2026年6月）

前沿不仅仅是OpenAI、Anthropic、Google、DeepSeek和MiniMax。以下是目前在特定任务中重要的另外五个模型。

Moonshot Kimi K2.6和K2.7 Code

K2.7 Code（2026年6月12日发布）是Moonshot AI最新的编程专用模型。它是一个1万亿参数的MoE模型，每token仅32B活跃参数，针对多轮编程会话进行优化，支持preserve_thinking模式在轮次间保留推理上下文。完整评测：Kimi K2.7 Code（2026）。

重要性： K2.7 Code在MCP Mark Verified上击败Claude Opus 4.8（81.1 vs 76.4），在MLS Bench Lite上几乎追平GPT-5.5（35.1 vs 35.5）。它采用Modified MIT开源许可，支持通过MoonViT进行多模态输入（图像+视频）。API定价$0.95/$4.00每百万token，将其定位为质量高于DeepSeek V4 Pro但价格低于其的优质开源编程模型。

**K2.6（2026年5月）**仍然可用但已被取代。它在LMArena Code Arena上得分1529，支持多模态和262K上下文。截至2026年6月13日，已失去OpenRouter :free标签。编程使用K2.7 Code，免费替代方案用Qwen3-Coder（:free）。

价格信号： K2.7 Code $0.95/$4.00每百万token。K2.6约$0.68/$3.41。两者都在OpenRouter和Moonshot API上可用。

最适合： 推理持久性重要的多轮编程会话、想要带视觉输入的开源编程模型的团队，以及双语编程工作。

Zhipu GLM-5.1

它是什么： 智谱AI的旗舰编程和智能体模型。它是一个专有系统，权重有商用限制。

重要性： GLM-5.1在LMArena Code Arena上得分1534，在该基准测试上排名高于Kimi K2.6和DeepSeek V4 Pro。开发者报告称它在Claude Code框架中用于代码仓库级变更时表现出色。它也是在中英双语编程任务中最强的模型之一。

最适合： 双语环境中的编程智能体、兼容Claude Code的工作流，以及已在阿里云或智谱推理上运行的团队。

Zhipu AI platform home page showing GLM model family and developer tools on zhipuai.cn — 智谱AI平台，含GLM模型访问。截图来自厂商网站，2026年6月5日截取。UI和定价可能变更。

Stepfun Step 3.7

它是什么： 阶跃星辰的多模态推理模型，2026年5月下旬发布。支持256K上下文窗口，定位于终端智能体和具身AI。

重要性： Stepfun同时推出GUI智能体模型和语音模型。Step 3.7 API已在OpenRouter上线，每百万输入token $0.20，每百万输出token $1.15，是市场上最便宜的多模态路由之一。

最适合： 中文智能体任务、自动驾驶集成（Stepfun与吉利合作），以及低成本多模态草稿。

Stepfun platform home page showing Step model family and agent products on stepfun.com — 阶跃星辰平台，含Step模型访问和智能体产品。截图来自厂商网站，2026年6月5日截取。UI和定价可能变更。

Moonshot Kimi chat interface showing long-document handling and model selector on kimi.moonshot.cn — Moonshot Kimi聊天界面，展示长上下文能力。截图来自厂商网站，2026年6月5日截取。UI和定价可能变更。

NVIDIA Nemotron 3 Ultra

它是什么： NVIDIA的550B参数开放混合MoE模型，配备一百万token上下文窗口。面向推理、编排和安全检查任务。完整指南：NVIDIA Nemotron 3 Ultra（2026）。

重要性： Nemotron 3 Ultra在OpenRouter上可用:free后缀，这意味着在促销期间你可以零token成本运行百万上下文安全检查和智能体编排。更小的Nemotron 3 Super（120B）和Nano变体也在OpenRouter上有免费标签。

最适合： 安全护栏、智能体编排层，以及需要NVIDIA基础设施但不想付NVIDIA标价的长上下文实验。

MiMo V2.5和V2.5 Pro

它是什么： 小米MiMo V2.5系列有两个不同的成员。MiMo V2.5是一个310B参数（15B活跃）的原生多模态模型，在单一系统中理解文本、图像、视频和音频。MiMo V2.5 Pro是一个1.02T参数（42B活跃）的文本专注型智能体编程专家。两者都配备一百万token上下文窗口和开放权重。

重要性： MiMo V2.5是小米对Gemini 3 Pro在多模态任务上的回应。厂商图表显示它在视频理解方面匹配Gemini 3 Pro（Video-MME 83.5 vs 84.2），在图像推理方面（MMMU-Pro 88.5 vs 86.4），且成本只是后者的一小部分。MiMo V2.5 Pro是目前最强的开放权重编程智能体之一。它在SWE-Bench Pro上得分57.2%，在Terminal-Bench 2.0上得分68.4%，同时每个任务使用的token比Claude Opus 4.6或GPT-5.4少约40-60%。两者均采用MIT许可，在Hugging Face上可用。

定价（2026年6月）：

MiMo V2.5： 约每百万输入token $0.14，每百万输出token $0.28。
MiMo V2.5 Pro： 约每百万输入token $1.00，每百万输出token $3.00。

这使基础版V2.5成为市场上最便宜的多模态模型之一，Pro版成为最便宜的前沿级编程智能体之一。

最适合：

MiMo V2.5： 多模态草稿、视频分析、图表理解，以及在一个提示中需要图像、视频和音频的低成本长上下文问答。
MiMo V2.5 Pro： 编程智能体、自主工具循环和长期软件工程，当DeepSeek V4限速时，或当你想在路由器栈中添加第二个开放权重供应商时。

注意事项： 小米仍在建设其国际API和社区生态。工具调用行为可能与OpenAI风格的SDK不同。在正式使用前测试你确切的智能体框架。

Xiaomi MiMo V2.5 product page showing multimodal capabilities and benchmark scores on mimo.xiaomi.com — 小米MiMo V2.5产品页面，含基准测试亮点。截图来自厂商网站，2026年6月5日截取。UI和定价可能变更。

Mistral（前沿产品线）

通俗解释： Mistral是一家欧洲AI公司，提供快速、开发者友好的模型。部分权重开放，部分为专有。当你需要EU友好托管、快速API切换，或在将工作发送到GPT-5.5或Claude之前需要更便宜的草稿模型时，该品牌很受欢迎。

命名变化很快：Large、Medium、Codestral、Devstral和合作伙伴变体。在本页面中，Mistral前沿版指的是你的API控制台在2026年6月显示的最新Large或Codestral版本，而非每个旧检查点。

Mistral为何保留在”最新模型”页面上

数据驻留： EU客户通常需要在欧洲区域进行推理。Mistral面向该需求营销。
路由器生态： OpenRouter、Groq和Together很早就添加了Mistral模型ID。当GPT-5.5或Claude限速时，它们是替代选项。
专用编程模型： Codestral品牌模型在IDE自动补全和小型智能体步骤中仍然流行，这些场景下使用完整的Opus或GPT-5.5过于奢侈。

实用选择规则

在.env中锁定精确的模型字符串（如mistral-large-2411这样的ID会随版本变化）。
使用Mistral进行草稿处理。如果质量偏移，使用美国前沿模型进行最终检查。
启用智能体工具时阅读Mistral的安全和能力卡片。较小的模型更容易产生工具参数幻觉。

选择Mistral的场景： 你在EU构建产品，想要供应商多样性但不训练自己的权重，或你的OpenRouter账单在GPT-5.5上飙升需要降低成本。

不应作为唯一前沿模型的场景： 你需要OpenAI和Anthropic在Codex和Claude Code中优化的计算机使用分数。

本地模型：Qwen 3.6 vs Gemma 4

如果你想在自己的硬件上运行前沿级模型，2026年6月有两个系列占主导地位：Qwen 3.6和Gemma 4。

Qwen 3.6 (Alibaba)

重要性： Qwen 3.6是当前开放权重编程的领先者。Qwen3.6-27B密集模型在SWE-bench Verified上得分77.2%，Qwen3.6-35B-A3B MoE在AIME 2026上得分92.7%，在GPQA Diamond上得分86.0%。全部采用Apache 2.0许可。

硬件适配：

Qwen3.6-27B： 在24 GB GPU（RTX 3090/4090）上运行，约50 tok/s。
Qwen3.6-35B-A3B： 每token仅约3.1B活跃参数，因此量化后也能装入24 GB显卡。这是单GPU前沿编程的最佳选择。

最适合： 编程智能体、长上下文仓库问答（原生256K，可扩展至1M），以及需要Apache 2.0权重且无许可证摩擦的团队。preserve_thinking功能帮助智能体工具循环跨轮次保持上下文。

Qwen model collection on Hugging Face showing Qwen3.6 variants and download stats — Hugging Face上的Qwen模型中心，含开放权重下载。截图于2026年6月5日截取。

Gemma 4 (Google DeepMind)

重要性： Gemma 4是Google首个开放权重MoE系列，尺寸从E2B（微型）到31B密集型。所有尺寸均为Apache 2.0。31B密集模型在MMLU Pro上得分85.2%，在LiveCodeBench上得分80%，而E2B和E4B尺寸增加了原生音频理解（Qwen 3.6不具备此能力）。

硬件适配：

Gemma 4 E2B/E4B： 8 GB内存笔记本。适合边缘演示和基础多模态任务。
Gemma 4 26B-A4B： 16 GB显存。每token仅使用4B活跃参数的MoE。
Gemma 4 31B： 4-bit量化需24 GB显存。推理和数学的旗舰。

最适合： 数学任务（AIME 89.2%）、多模态广度（小尺寸上的文本+图像+视频+音频）、多语言工作（140+种语言），以及想要Google训练栈支持本地部署的团队。

Gemma 4 31B model page on Hugging Face showing architecture details and download stats — Hugging Face上的Gemma 4 31B。截图于2026年6月5日截取。

如何选择

你的优先级	首选	备选
编程 / SWE-bench	Qwen 3.6-27B或35B-A3B	Gemma 4 31B
数学 / MMLU	Gemma 4 31B	Qwen 3.6-35B-A3B
多模态+音频	Gemma 4 E2B/E4B或31B	（Qwen 3.6无音频输入）
单张24 GB GPU	Qwen 3.6-35B-A3B	Gemma 4 26B-A4B
笔记本/边缘	Gemma 4 E4B	Qwen 3.5-9B
智能体工具循环	Qwen 3.6-27B（preserve_thinking）	Gemma 4 31B

实用提示： 两个系列都通过Ollama、vLLM和llama.cpp运行。如果你只有一张GPU，编程用Qwen3.6-35B-A3B，通用推理用Gemma 4 31B。如果有两张GPU或工作站，同时运行两者，在你实际的代码和文档上做A/B测试。

哪个模型适合哪种工作？

工作	首选	备选	AI Tools Radar搭配
在IDE / Codex中交付功能	GPT-5.5、GLM-5.1、DeepSeek V4-Pro	Claude Opus 4.8、MiniMax M3、Kimi K2.7 Code	构建者赛道评测（Devin Desktop、Cursor）
高管备忘录或董事会报告	Claude Opus 4.8、GPT-5.5 Pro	Gemini 3 Pro	除非研究密集型，否则不用Manus
从要点生成幻灯片	Gemini或Claude做大纲	SlideAI、Gamma、Dokie	SlideAI评测
异步网络研究智能体	GPT-5.5或Claude搭配智能体框架	Gemini用于Google原生来源	Manus AI评测
客服智能体	GPT-5.5、Gemini 3	领域微调	如果你对标厂商评估，测试Tau2风格的电信流程
低成本批量代码审查	MiniMax M3、Kimi K2.7 Code、DeepSeek V4-Flash	Mistral Large、Stepfun 3.7通过路由器	仅将失败文件提升到GPT-5.5
法律/金融文档提取	Claude Opus 4.8	GPT-5.5 Pro	人工审查仍然必要
多模态学习（视频+PDF）	Gemini 3 Pro、MiMo V2.5、MiniMax M3、Kimi K2.7 Code	GPT-5.5（在启用的地方带视觉）	课堂风格提示，非智能体
长上下文仓库问答（百万token）	MiniMax M3、DeepSeek V4-Pro	Nemotron 3 Ultra（免费层级）	如果结构重要，分块仍优于暴力方法
中文双语编程	GLM-5.1、Kimi K2.7 Code	Qwen3-Next、Stepfun 3.7	在中文提示上验证工具调用
本地编程智能体（自托管）	Qwen 3.6-27B / 35B-A3B	Gemma 4 31B	Ollama或vLLM；验证工具调用
本地推理/数学（自托管）	Gemma 4 31B	Qwen 3.6-35B-A3B	Ollama或vLLM；量化以适配显存
仅EU的API要求	Mistral前沿版	Gemini EU区域	与法务确认DPA

OpenRouter和API路由（2026年6月）

大多数团队从不直接接触基础模型。他们使用应用（ChatGPT、Claude、Cursor、Manus）或转发请求的路由器。

OpenRouter（以及Together、Groq、Fireworks等同类）在一个OpenAI风格的API后面暴露多个模型ID。2026年的典型模式：

对请求分类： 草稿vs最终版，公开vs机密，实时vs隔夜批量。
草稿路由到minimax/minimax-m3、moonshotai/kimi-k2.7-code、deepseek-v4-flash或中端Mistral模型。
最终版路由到gpt-5.5、claude-opus-4-8、glm-5.1或gemini-3.1-pro，取决于你最担心什么（代码bug vs 语气偏移 vs 仅Google工具）。
按任务记录模型ID，以便在厂商重命名默认值时审计成本。

我们观察到的故障模式

应用悄悄升级默认值（GPT-5.4到GPT-5.5），在简单提示上质量未提升但支出跳增。
路由器在2026年6月DeepSeek下线后缓存旧ID。
Manus等智能体隐藏后端。阅读发布说明和智能体设置。

我们正在完成6月日历上的专门OpenRouter免费模型指南（参见6月第1周雷达）。在此之前，将本页面作为能力图谱，雷达作为工具评判。

2026年最佳免费和低成本AI模型

不是每个人都需要每月$20的订阅。以下是如何以更低成本获得强大输出。

有效的免费层级

ChatGPT Free运行GPT-5.5级模型，有速率限制。适合偶尔的起草和轻度编程问题。
Claude Free提供Sonnet级模型访问。在我们的测试中，长文档处理优于ChatGPT Free。
Gemini Free在Google应用中包含3.x系列。通常是Workspace用户的默认选择。
MiniMax M3开放权重和低API定价使其成为运行长上下文编程草稿最便宜的方式之一。完整评测：MiniMax M3开源版（2026）。
Kimi K2.7 Code是最新的开放权重编程专用模型。没有免费层级，但在智能体基准测试上以远低于GPT-5.5的价格具有竞争力。完整评测。
Kimi K2.6截至6月13日已失去OpenRouter上的:free标签。编程用K2.7 Code，免费用Qwen3-Coder。
NVIDIA Nemotron 3 Ultra和Nemotron 3 Super均在OpenRouter上提供:free标签，可零token成本进行百万上下文实验。
DeepSeek V4-Flash和MiMo V2.5 API定价是编程和智能体任务中最低的之一。DeepSeek服务上有免费聊天模式。
Mistral开放权重可在GPU本地运行或通过Groq免费层级在便宜的路由器上运行。

何时付费

编程智能体需要GPT-5.5 Pro、Claude Opus或DeepSeek V4-Pro才能进行可靠的多步骤工作。
超过100K token的长上下文任务通常需要付费层级或API密钥。
SSO、审计日志和数据退出等企业功能在每个厂商都是付费墙后的。

成本经验法则： 从免费开始。只有当你在实际任务中碰到速率限制或准确度瓶颈时才升级到付费。不要为简单的问答预购前沿层级。

视频和多模态模型（2026年6月说明）

文本前沿模型与视频生成器（Kling、Veo级工具、Grok Imagine、runway风格的UGC应用）不同。Video-MMMU等分数显示的是Gemini在理解视频方面的实力，而不总是生成电影级片段的能力。

AI Tools Radar策略： 我们在每周雷达文章中跟踪视频工具，而非在此进行完整的生成视频排行。对于直接对比选择，阅读Kling AI 3.0 vs Grok vs Veo（2026）。如果两者都需要，将Gemini或GPT-5.5用于脚本和分镜，配合创作者赛道工具进行渲染。

多模态提示： 当厂商引用图像或视频分数时，检查你的方案是否在API中包含该模态，还是仅在消费者应用中。许多企业只有纯文本合同。

如何在30分钟内更新你的技术栈

列出五个重复性任务（代码、幻灯片、邮件分类、客服宏、研究简报）。
记下每个任务当前使用的应用（不是你假设的模型）。
打开厂商发布说明查看该应用2026年4月至6月的默认模型。
对每个任务运行一次A/B测试，使用新的模型名称（相同的评判标准：正确性、语气、工具使用、时间）。
检查成本仪表板了解token用量。GPT-5.5声称高效，但智能体循环仍可能导致用量暴增。
更新内部文档，为路由器和CI机器人锁定模型ID。
如果延迟、拒绝或支出在你的评判标准上没有质量提升的情况下上升，回滚。

内容差距和内部链接

许多文章列出模型却不指出你实际点击的工具。AI Tools Radar弥补了这个差距：

智能体： Manus AI评测（2026）解释异步交付物。智能体模式对决参见Manus AI vs ChatGPT Agent vs Claude（2026）。根据后端搭配GPT-5.5或Claude。
幻灯片： SlideAI评测（2026）用于演示输出。模型提供文字，SlideAI提供布局。
每周发布： 2026年AI新工具（6月第1周）了解基于这些模型发布的工具。
8月刷新： 2026年8月AI模型对比基准查看Q2路由说明。
编程对比： DeepSeek V4 vs ChatGPT vs Claude编程对比（2026）。
开放权重深度解析： MiniMax M3开源版（2026）和Kimi K2.7 Code（2026）。
政策： 美国政府封禁Anthropic Fable 5和Mythos 5（2026）。
路由： OpenRouter免费模型（2026）。
Excel工作流： GPT-5.5 Excel工作流（2026）。
自由职业技术栈： 用AI工具赚钱（2026）。

如果你希望扩展某个特定的模型行，发布后在我们的网站上搜索latest ai models 2026加上厂商名称。

更新日志

2026-06-13： 6月13日刷新。将Kimi K2.7 Code（6月12日发布）添加到对比表，含基准测试、定价和preserve_thinking详情。更新了Kimi K2.6条目（失去OpenRouter :free标签）。在工作路由表和免费模型推荐中用K2.7 Code替换了K2.6。链接到MiniMax M3、Kimi K2.7 Code和美国政府封禁Fable 5/Mythos 5的完整评测。在Claude Opus部分添加了Fable 5禁令说明。
2026-06-05： 6月重大刷新。将MiniMax M3（6月1日）、Moonshot Kimi K2.6、Zhipu GLM-5.1、Stepfun Step 3.7、NVIDIA Nemotron 3 Ultra、MiMo V2.5 Pro添加到对比表，并新增”其他值得关注的模型”章节。将MiMo V2.5提升为与DeepSeek V4并列的开放权重低成本领先者。在Gemini部分添加了Gemini 3.5 Flash（5月19日）。新增”本地模型”章节涵盖Qwen 3.6 vs Gemma 4 31B vs Gemma 4 12B。扩展工作路由表增加双语编程、长上下文和本地自托管行。更新了OpenRouter路由、免费/低成本说明和FAQ。从低成本推荐中移除了Llama。
2026-06-05： 将Gemma 4 12B添加到对比表。链接到Gemma 4 12B本地部署指南。
2026-06-02： 事实核查刷新。从OpenAI GPT-5.5、Anthropic Opus 4.8和DeepSeek V4预览确认发布日期和标题基准测试。将DeepSeek旧版API下线时间锁定为2026年7月24日15:59 UTC。
2026-06-02： 全面改写为通俗语言。添加了GPT-5.5（2026年4月OpenAI）、Claude Opus 4.8（2026年5月Anthropic）、DeepSeek V4（2026年4月）、Mistral前沿说明、OpenRouter章节、工作表、30分钟刷新指南、八个FAQ。
2026-05-27： 初始信息枢纽框架，含简短对比表。

常见问题

8 个问题

2026年最好的AI模型是什么？

没有单一赢家。GPT-5.5在多项厂商公布的编程和计算机使用基准测试中领先。Claude Opus 4.8在精细写作、法律风格工作和诚实自查方面表现突出。Gemini 3.x适合Google Workspace用户。DeepSeek V4和MiMo V2.5 Pro是开源开放权重编程实验的低成本首选。MiMo V2.5是视频、图像和音频理解的低价多模态选项。MiniMax M3是百万上下文编程和多模态工作的低价挑战者。Kimi K2.7 Code是最新的开放权重编程专用模型，支持preserve_thinking多轮会话。GLM-5.1在双语编程方面表现优异。对于本地自托管，Qwen 3.6-27B/35B-A3B是单GPU上最好的开源编程模型，Gemma 4 31B在数学和多模态广度方面领先。根据任务、合规要求和数据位置选择。

GPT-5.5比GPT-4好吗？

OpenAI将GPT-5.5（2026年4月）定位为智能体编程、电子表格、浏览器任务和长时间计算机使用的重大升级。如果你在某个应用中仍然看到GPT-4的名称，请检查你的订阅计划和工作区管理设置。许多产品在不更改UI名称的情况下自动升级了默认模型。

什么时候应该选择Claude Opus 4.8而不是GPT-5.5？

当语气、引用规范性、对不良方案的质疑能力或长会话写作比峰值基准分数更重要时，选择Claude。当你主要使用Codex、需要办公自动化、或希望在一个厂商合同中获得OpenAI最新的智能体技术栈时，选择GPT-5.5。

什么时候应该使用DeepSeek V4？

当API成本、百万token上下文或自托管开放权重很重要，且你的安全团队批准了该供应商时，使用DeepSeek V4。在切换生产环境智能体之前，先在你的私有仓库上运行A/B测试。在DeepSeek文档中注明的2026年6月API下线日期之前，迁移旧版deepseek-chat路由。

Gemini 3能替代Google用户的GPT吗？

对于使用Gmail、Docs、Drive和Vertex AI的团队，Gemini 3.x通常是默认的智能层。它不能替代非Google工具中的GPT。混合架构很常见：在Workspace中使用Gemini，在IDE和路由器中使用GPT或Claude。

OpenRouter是什么，我需要它吗？

OpenRouter是一个模型路由器。你发送一种API格式，按请求切换模型ID。当你想用DeepSeek或Mistral进行低成本草稿，再用GPT-5.5或Claude进行最终步骤的高级处理时很有用。如果你只使用一个厂商的应用，则不需要它。

这个页面应该多久更新一次？

我们在主要厂商发布后两周内或Search Console显示某个模型名称搜索量上升时更新updatedDate。2026年6月的更新反映了GPT-5.5（4月）、Claude Opus 4.8（5月）、DeepSeek V4预览（4月）、MiniMax M3（6月）、Kimi K2.7 Code（6月12日）、Gemini 3.5 Flash（5月）、GLM-5.1和Stepfun 3.7。

Manus等工具使用的是哪个模型？

智能体产品自行选择后端，可能每周都会更换。Manus和类似的智能体在用户体验层面是模型无关的。阅读我们的Manus评测了解任务适配性，然后将你的智能体设置映射到本文的对应行。