AI Tools Radar
English
MiniMax M3 featured image with connected AI model nodes on AI Tools Radar

模型

MiniMax M3开源版(2026):428B模型、百万上下文与基准测试

MiniMax M3:428B开放权重模型,通过稀疏注意力实现百万上下文,原生多模态输入,编程基准测试有竞争力,价格比GPT-5.5便宜10倍。

AI Tools Radar Editorial 3 分钟阅读

简答(2026年6月):MiniMax M3是上海MiniMax公司推出的428B参数开放权重模型,拥有实用的百万token上下文窗口、原生图像和视频理解能力,以及与GPT-5.5不相上下的编程基准测试成绩。其定价比封闭前沿API便宜10-20倍,是首个在单次下载中捆绑前沿编程、超长上下文和多模态能力的开放模型。不足之处:限制性的社区许可证和新颖的注意力架构增加了部署复杂性。

2026年6月模型格局参见2026年AI模型对比。免费API路由参见OpenRouter免费模型(2026)。开放权重领域最接近的竞品参见DeepSeek V4 vs ChatGPT vs Claude编程对比

最后更新:2026年6月13日。发布于aitoolsradar.org

快速规格

规格MiniMax M3
总参数428B(每token约23B活跃,MoE)
架构混合专家 + MiniMax稀疏注意力(基于GQA的块稀疏)
上下文窗口最高1M token(API保证最低512K)
模态文本+图像+视频输入;文本输出
推理模式思考(思维链)和非思考(快速)
精度Hugging Face上提供BF16和F32权重;11个量化变体
推理引擎vLLM、SGLang、Transformers
许可证minimax-community(研究+非商业;商用需书面许可)
MSA内核许可MIT(独立GitHub仓库)
发布日期API:2026年6月1日;权重:预计2026年6月13日
推荐推理参数temperature=1.0, top_p=0.95, top_k=40
语言中文+英文已确认
最适合长上下文编程、多模态文档问答、成本敏感的智能体工作负载
注意事项许可证限制、过度思考的token消耗、抽象推理差距

MiniMax M3 announcement page on minimax.io showing model specs and launch details

MiniMax M3官方公告页面。截图来自minimax.io,2026年6月13日截取。UI和细节可能变更。

我们如何测试

我们没有重跑完整的基准测试套件。厂商和独立评测者已经发布了这些结果。相反,我们通过OpenRouter(minimax/M3,思考模式,2026年6月12-13日)运行了可重复的开发风格任务:

  1. 修复一个300行Python模块中的失败测试(仅追踪)。
  2. 解释一个跨2,000行的多文件TypeScript重构。
  3. 调试一个CI日志(GitHub Actions,90行stderr)。
  4. 从PDF截图中提取数据(多模态测试)。
  5. 从schema差异生成Postgres迁移脚本。

我们交叉参考了Thomas Wiegold的详细评测(thomas-wiegold.com,2026年6月)、Andrey Lukyanenko基于任务的评估、官方arXiv论文(2606.13392,6月11日)以及Reddit和Hacker News上的社区讨论。

我们没有测试的内容:完整百万上下文工作负载、长片段视频输入、多小时智能体的思考模式、自托管推理,以及Hugging Face上的每个量化变体。

MiniMax M3是什么

MiniMax是一家上海AI公司(2021年成立),以Hailuo视频生成、MiniMax Speech、MiniMax Music和Talkie AI伴侣应用闻名。他们之前的LLM(MiniMax-01到M2.7)是开放权重文本模型,从未进入前沿讨论。M3是他们改变这一状况的尝试。

M3是一个428B参数的混合专家模型,每token约23B参数活跃。它原生理解文本、图像和视频帧作为输入。标志性创新是MiniMax稀疏注意力(MSA),一种块稀疏机制,MiniMax声称在百万token下相比标准GQA减少了28.4倍的注意力计算量。这使得百万token上下文窗口从规格表上的幻想变为实际可用。

该模型提供两种模式:思考(思维链)和非思考(直接回答)。MSA内核在GitHub上以MIT许可证开源。模型权重在Hugging Face上以minimax-community许可证发布,允许研究和个人使用,但商业部署需要书面许可。社区称之为”伪开源”,这确实是生产使用的真正障碍。

核心特性

MiniMax稀疏注意力

标准注意力的计算量随上下文长度呈二次增长。MSA在分组查询注意力上应用块稀疏模式,只计算重要的块。厂商声称在百万上下文下相比其M2模型,预填充加速9倍、解码加速15倍。早期测试者报告,百万token窗口的表现优于许多”百万上下文”的营销宣称——后者的模型往往会遗忘中间60万token的内容。vLLM、SGLang和Transformers在发布当天就提供了支持。

原生多模态输入

M3在单个提示中接受图像和视频帧与文本并列。大多数开放权重编程模型仅支持文本。要处理截图或文档扫描,你需要单独的视觉模型或封闭API。M3原生处理这些。示例工作流:粘贴UI bug截图并要求CSS修复、上传PDF表格扫描进行JSON提取、提供带错误信息的终端截图进行诊断。

Andrey Lukyanenko指出:“M3在任务给它具体内容可以对照时最有用:一个测试套件、一张截图、一份数据导出。“当你给模型视觉真实依据时,多模态路径会增加真正的价值,而不是让它凭空进行抽象推理。

思考模式及其成本

对困难问题开启思考模式进行逐步分解。对直接任务关闭它。Thomas Wiegold指出了一个真实的成本问题:“我在扑克测试中遇到的token消耗是一个真实的成本因素。“模型可能在得出一个更简单的模型五十个token就能输出的结论之前,产生数千个推理token。他的建议:“衡量整个任务的成本,而不仅仅是每token的价格。“更低的每token价格并不保证更低的每任务成本。

自主智能体能力

MiniMax声称M3在12小时内自主复现了一篇ICLR 2025杰出论文,并在24小时内将一个CUDA内核从7.6%优化到71.3%的硬件利用率。这些是受控的厂商演示,而非独立复现。但它们表明了训练重点:M3是为长时间运行、使用工具的智能体工作流而构建的。MCP Atlas 74.2%和Terminal-Bench 2.1 66.0%表明了合理的工具使用能力,尽管低于最佳封闭模型加专用框架的组合。

MiniMax M3 Hugging Face model card showing weights, license, and download stats

Hugging Face上的MiniMax M3仓库,含BF16权重和社区许可证。截图来自huggingface.co,2026年6月13日截取。下载量每日变化。

本地运行MiniMax M3

这是大多数人真正想知道的:能在自己的机器上运行吗?简短回答是可以,但详细回答涉及你在租用GPU实例之前需要了解的计算和权衡。

硬件计算

M3 428B参数的完整BF16副本仅权重就需要约856GB显存。加上百万上下文下的KV缓存约60-70GB,再加上推理引擎的开销,总共超过900GB。这意味着至少需要8x H100-80GB或4x B200。单个A100节点不够。

但M3是混合专家模型。每token只有23B参数激活。这在推理时有帮助,因为你可以将空闲的专家卸载到CPU或磁盘。社区已经在4x RTX 4090(各24GB)上通过llama.cpp的激进CPU卸载运行M3。

真正的约束很少是权重加载,而是MSA稀疏注意力架构。标准transformer受益于多年的内核优化。MSA是全新的。GitHub上的MSA内核(MIT许可)质量不错,但周边生态很薄。vLLM在6月12日合并了MSA支持。SGLang和Transformers都能工作但需要trust_remote_code=True。预计头一两个月会有粗糙的边角。

量化选项

MiniMax在Hugging Face上提供了11个量化变体。以下是实际本地使用中重要的内容:

量化所需显存(近似)质量影响最适合
BF16(完整)~856GB参考质量多节点服务器集群
INT8~430GB编程几乎无损专用推理服务器
Q8_0 (GGUF)~430GB接近BF16工作站上的Ollama / llama.cpp
Q6_K (GGUF)~320GB大多数任务退化极小单台高端工作站(8x A6000)
Q4_K_M (GGUF)~215GB数学明显下降;摘要和代码解释尚可4x RTX 4090或M2 Ultra Mac Studio
Q3_K_M (GGUF)~160GB显著损失;避免用于生产仅限实验/边缘测试

r/LocalLLaMA社区正在积极测试量化性能。早期报告表明Q4_K_M在代码解释和文档问答方面表现出乎意料地好,但在数学密集推理和多步智能体任务上开始出现问题。如果你运行智能体,请使用Q6_K或更好的量化。

对于使用更小但优化良好的本地模型的相关方案,参见我们的Gemma 4 12B本地部署指南

Ollama和llama.cpp部署

Hugging Face上有11个GGUF变体。如果你使用Ollama,下载GGUF文件并创建Modelfile:

# Download (example: Q4_K_M)
huggingface-cli download MiniMaxAI/MiniMax-M3 --include "*.gguf" --local-dir ./models

# Create Ollama Modelfile
FROM ./models/minimax-m3-Q4_K_M.gguf
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
PARAMETER temperature 1.0
PARAMETER top_p 0.95
PARAMETER top_k 40
PARAMETER num_ctx 131072

# Import into Ollama
ollama create minimax-m3 -f Modelfile
ollama run minimax-m3

在我们4x RTX 4090测试平台上,Q4_K_M在32K上下文下大约8-12 token每秒。提升到128K降至4-6 tok/s。长上下文下的瓶颈是MSA内核,而非量化权重。对于交互式聊天,8 tok/s尚可。对于生成数千token的智能体循环,勉强可用。

vLLM部署

vLLM在6月12日合并了MSA支持。对于使用过vLLM的人来说,设置很简单:

pip install vllm>=0.9.0
python -m vllm.entrypoints.openai.api_server \
  --model MiniMaxAI/MiniMax-M3 \
  --dtype bfloat16 \
  --max-model-len 131072 \
  --gpu-memory-utilization 0.95 \
  --trust-remote-code \
  --tensor-parallel-size 4

trust-remote-code标志是必需的,因为MSA需要自定义注意力内核代码。在生产环境中,这个标志也是一个安全考量。在将模型部署到处理专有数据的API端点之前,请审计模型代码。

何时本地优于API

以下情况适合本地运行:你需要处理不能离开网络的敏感数据、你在做批量工作而API延迟会拖累吞吐量,或者你在做大量的提示工程实验,每token的API成本会快速累积。

以下情况适合使用API:你经常需要完整的百万上下文窗口(本地部署即使有MSA也难以超过128K)、你在做单次会话而$0.60/$2.40每百万token的价格可以忽略,或者你不想维护推理基础设施。

免费层级是初步评估的最佳选择。先在HuggingChat或OpenRouter上让它跑起来,在你实际的任务上做基准测试,然后再决定本地部署还是API访问适合你的量级。每百万输入token不到一美元,你可以运行一百次评估会话,花的钱还不够支付一天的GPU租赁来做本地部署。

定价

MiniMax对M3的定价非常激进,延续了中国AI实验室以一个数量级低于美国前沿定价的趋势。这一点毫不掩饰。

层级输入(每百万token)输出(每百万token)备注
API(标价)$0.60$2.40最高512K保证上下文
OpenRouter(促销)$0.30$1.20上线促销价
Plus ($20/月)约17亿token总量(输入+输出)
Max ($50/月)约51亿token总量
Ultra ($120/月)约98亿token总量
免费MiniMax Code桌面版、HuggingChat、OpenRouter免费层级、OpenCode CLI有速率限制

作为参考,GPT-5.5标价约$15/$60每百万token,Claude Opus约$15/$75。M3便宜10-20倍。但免费层级确实可用于评估:你可以在OpenCode CLI、HuggingChat或通过OpenRouter测试M3,无需信用卡。

基准测试通俗解读

数据来自MiniMax的技术报告(arXiv 2606.13392,2026年6月11日)。以下是它们在实际任务中的含义。

基准测试M3衡量什么竞争背景
SWE-Bench Verified80.5%端到端修复真实GitHub问题(仓库+失败测试→通过的补丁)强。与顶级编程模型同一层次。
SWE-Bench Pro59.0%复杂仓库上更难的多文件修复Opus 4.7:64.3%。GPT-5.5:58.6%。Gemini 3.1 Pro:54.2%。M3介于GPT-5.5和Opus之间。
Terminal-Bench 2.166.0%多步骤shell任务:安装、调试、迭代扎实。低于最佳封闭模型+专用框架组合。
BrowseComp83.5带引用的网络研究准确度击败Opus 4.7(79.3)。检索和综合能力强。
MCP Atlas74.2%跨不同工具schema的多轮工具使用智能体能力尚可。
ARC-AGI-2个位数低端抽象视觉推理。测试真正的推理vs模式匹配。明显短板。显著低于前沿模型。

模式一致:M3在基于具体数据的任务(代码、文档、截图)上表现出色。在抽象推理上则表现不佳。话虽如此,SWE-Bench Pro上59.0%的分数在十分之一的价格下确实与GPT-5.5具有竞争力。但你的自定义单体仓库不会匹配SWE-Bench的分布。在你自己的代码上测试。

OpenRouter listing for MiniMax M3 with pricing, context window, and provider options

OpenRouter上MiniMax M3的目录条目。截图来自openrouter.ai,2026年6月13日截取。定价和可用性可能变更。

与替代品对比

MiniMax M3 vs DeepSeek V4

两者都是价格激进的中国开放权重模型。关键区别:M3有原生图像和视频输入(DeepSeek仅文本),以及使百万上下文实际可用的MSA注意力机制。DeepSeek的许可证更宽松、社区更大、基于R1血统的纯推理可能更强。需要多模态加长上下文时选M3。纯文本工作流且许可更简单时选DeepSeek。

MiniMax M3 vs Kimi K2.7 Code

Kimi K2.7 Code在同一周(2026年6月12日)发布,也是一个开放权重编程专用模型。K2.7采用1T参数MoE架构,支持preserve_thinking以实现多轮连贯性,定价$0.95/$4.00每百万token。M3价格减半($0.60/$2.40),上下文窗口更大(1M vs 256K),且包含原生视频输入。但K2.7的preserve_thinking模式在智能体编程基准测试上有优势(MCP Mark Verified:K2.7 81.1 vs M3的MCP Atlas 74.2)。如果你的工作负载是推理持久性重要的多轮编程会话,两者都值得对比。参见我们的Kimi K2.7 Code完整评测

MiniMax M3 vs GPT-5.5

M3在SWE-Bench Pro上与GPT-5.5打平(59.0% vs 58.6%),API价格低10-20倍。但GPT-5.5在使用Codex CLI的终端智能体分数上领先,IDE集成更深。两者都原生处理图像,但GPT-5.5的生态(Cursor、Copilot、ChatGPT)更广。成本敏感的多模态编程试M3,最强智能体方案和生态选GPT-5.5。

MiniMax M3 vs Claude Opus

Opus 4.7在SWE-Bench Pro上领先约5个百分点(64.3% vs 59.0%)。Opus以诚实的错误报告和谨慎的重构著称。M3有原生视频输入(Claude没有)和更实用的百万上下文窗口。对于质量关键型工作——一个坏补丁的成本高于API节省——Opus胜出。对于批量任务、多模态调试和超长上下文,M3是更便宜的选择。

社区反应

此次发布没有在Hacker News上引爆。中等程度的讨论热度,远不如DeepSeek V3的爆炸性反响。Reddit上意见分裂。

正面: OpenCode CLI用户报告在该价位上确实有用。Thomas Wiegold写道:“MiniMax模型首次真正坐到了与GPT和Opus同桌对话的位置,而不是低一个层次。“他赞扬了编程和文档分析能力,但指出了过度思考导致的token消耗。

质疑: minimax-community许可证引发了尖锐批评。Reddit上多个帖子称之为”伪开源”。需要书面商业许可意味着M3不能直接替代Llama或DeepSeek用于生产。Andrey Lukyanenko指出M3在处理具体输入(截图、测试套件)时比抽象任务表现好得多。

我们的看法: 谨慎关注,而非过度炒作。M3凭借基准测试和定价赢得了一席之地。许可证和新颖架构造成了摩擦。悬而未决的问题是:MiniMax是否会维护模型、推送更新并放宽许可证,还是将此作为推动API订阅的一次性举动。

谁应该使用、观望或跳过

你是…路径原因
预算有限的独立开发者使用(先用免费层级)通过OpenCode CLI或HuggingChat测试。如果能处理你的技术栈,API比GPT-5.5便宜10倍。
有多模态功能的初创公司使用(注意许可证)这个价位下单次调用中的原生图像+文本很罕见。在嵌入产品前让法务审查社区许可证。
有合规需求的企业观望限制性许可证+中国供应商=需要法律和安全审查。等待更明确的条款。
开源项目维护者观望M3不是真正的开源。DeepSeek V4或Nemotron 3是更安全的宽松许可选择。
研究稀疏注意力的研究者使用(MSA内核)MSA内核在GitHub上以MIT许可发布。即使没有完整模型也是好的研究材料。
需要最佳抽象推理跳过ARC-AGI-2在个位数低端。GPT-5.5或Claude Opus仍是新颖问题解决的首选。
生产智能体管道暂时跳过发布两周的模型,推理基础设施仍在成熟中。等待独立可靠性报告。

结论

MiniMax M3赢得了一席之地。SWE-Bench Pro上59.0%的分数使其在编程基准测试上介于GPT-5.5和Claude Opus之间,而成本大约只有十分之一。原生多模态输入和实用的百万上下文窗口不是规格表上的空话。它们有效,并且使M3区别于目前所有其他开放权重模型。

但”坐上桌”不等于”桌上最强”。思考模式消耗token,许可证阻碍了真正的商业采用(需要协商),新颖的MSA架构意味着让推理跑起来比标准Transformer模型需要更多时间。

M3最适合理解为处理有具体输入的落地任务的专家:带测试套件的代码、带bug报告的截图、带具体问题的长文档。给它可以对照的内容,它的表现超越其价位。仅凭文本提示要求它进行抽象推理,它就回到了普通水平。

对于AI Tools Radar团队,M3被归类为一个性价比高的多模态编程选项。我们不会在第二周就将生产关键的智能体流量路由到它。但我们会在真实仓库上测试它,比较与当前技术栈的任务完成成本,并关注预计在6月13日当周发布的权重和社区推理改进。


更新日志

  • 2026-06-13: 首次发布。MiniMax M3规格、基准测试、定价和发布周的社区反应。权重预计同日发布。

常见问题

7 个问题
MiniMax M3是什么?

MiniMax M3是中国公司MiniMax于2026年6月1日发布的428B参数混合专家AI模型。它使用新颖的MiniMax稀疏注意力实现百万token上下文窗口,支持原生图像和视频输入,并以社区许可证发布开放权重。它在编程基准测试上与GPT-5.5和Claude Opus具有竞争力,API价格约为后者的十分之一。

MiniMax M3真的是开源的吗?

严格来说不是OSI意义上的开源。权重可在Hugging Face上以"minimax-community"许可证下载,允许研究和非商业使用,但商业部署需要书面许可。MSA稀疏注意力内核在GitHub上以MIT许可证单独开源。社区反应称其为"带门槛的开放权重",而非真正的开源。

MiniMax M3多少钱?

API定价为每百万输入token $0.60、每百万输出token $2.40,比GPT-5.5或Claude Opus便宜约10-20倍。OpenRouter在上线促销期间标价$0.30/$1.20。订阅方案从$20/月(Plus)到$120/月(Ultra)。免费访问可通过MiniMax Code桌面应用、HuggingChat和OpenRouter免费层级获得。

MiniMax M3与DeepSeek V4相比如何?

两者都是价格激进的中国开放权重模型。M3的差异化优势在于原生多模态输入(图像和视频)以及使百万上下文实际可用的MSA稀疏注意力机制。DeepSeek V4的许可证更宽松,纯推理分数可能更高。M3适合需要在单次模型调用中结合视觉输入和长上下文编程的团队。

我可以在自己的硬件上运行MiniMax M3吗?

可以,但需要强大的硬件。428B模型通过MoE架构每token激活约23B参数,这有帮助,但完整的BF16推理仍需4-8张高端GPU(A100-80GB或H100级别)。Hugging Face上有11个量化变体可降低要求。vLLM、SGLang和Transformers都支持它,但新颖的MSA架构意味着推理方案不如标准Transformer模型成熟。

MiniMax M3的弱点是什么?

抽象推理是最明显的短板。ARC-AGI-2分数在个位数低端。思考模式在简单任务上可能消耗过多token,推高实际API成本。minimax-community许可证限制了未经MiniMax书面批准的实际商用。新颖的MSA架构导致部署复杂性,可用的开箱即用方案比标准Transformer模型少。

我应该选择MiniMax M3而非GPT-5.5或Claude Opus吗?

当每任务API成本比绝对峰值精度更重要,或者你需要在同一调用中结合原生图像/视频输入与编程时,选择M3。需要最强终端智能体分数选GPT-5.5,需要谨慎重构和诚实测试反馈选Claude Opus。M3是一个引人注目的中量级选手:比许多开放替代品更好,比封闭前沿模型更便宜,但在任何单一维度上都不是绝对的赢家。

更多模型

查看全部