模型
MiniMax M3开源版(2026):428B模型、百万上下文与基准测试
MiniMax M3:428B开放权重模型,通过稀疏注意力实现百万上下文,原生多模态输入,编程基准测试有竞争力,价格比GPT-5.5便宜10倍。
简答(2026年6月):MiniMax M3是上海MiniMax公司推出的428B参数开放权重模型,拥有实用的百万token上下文窗口、原生图像和视频理解能力,以及与GPT-5.5不相上下的编程基准测试成绩。其定价比封闭前沿API便宜10-20倍,是首个在单次下载中捆绑前沿编程、超长上下文和多模态能力的开放模型。不足之处:限制性的社区许可证和新颖的注意力架构增加了部署复杂性。
2026年6月模型格局参见2026年AI模型对比。免费API路由参见OpenRouter免费模型(2026)。开放权重领域最接近的竞品参见DeepSeek V4 vs ChatGPT vs Claude编程对比。
最后更新:2026年6月13日。发布于aitoolsradar.org。
快速规格
| 规格 | MiniMax M3 |
|---|---|
| 总参数 | 428B(每token约23B活跃,MoE) |
| 架构 | 混合专家 + MiniMax稀疏注意力(基于GQA的块稀疏) |
| 上下文窗口 | 最高1M token(API保证最低512K) |
| 模态 | 文本+图像+视频输入;文本输出 |
| 推理模式 | 思考(思维链)和非思考(快速) |
| 精度 | Hugging Face上提供BF16和F32权重;11个量化变体 |
| 推理引擎 | vLLM、SGLang、Transformers |
| 许可证 | minimax-community(研究+非商业;商用需书面许可) |
| MSA内核许可 | MIT(独立GitHub仓库) |
| 发布日期 | API:2026年6月1日;权重:预计2026年6月13日 |
| 推荐推理参数 | temperature=1.0, top_p=0.95, top_k=40 |
| 语言 | 中文+英文已确认 |
| 最适合 | 长上下文编程、多模态文档问答、成本敏感的智能体工作负载 |
| 注意事项 | 许可证限制、过度思考的token消耗、抽象推理差距 |

我们如何测试
我们没有重跑完整的基准测试套件。厂商和独立评测者已经发布了这些结果。相反,我们通过OpenRouter(minimax/M3,思考模式,2026年6月12-13日)运行了可重复的开发风格任务:
- 修复一个300行Python模块中的失败测试(仅追踪)。
- 解释一个跨2,000行的多文件TypeScript重构。
- 调试一个CI日志(GitHub Actions,90行stderr)。
- 从PDF截图中提取数据(多模态测试)。
- 从schema差异生成Postgres迁移脚本。
我们交叉参考了Thomas Wiegold的详细评测(thomas-wiegold.com,2026年6月)、Andrey Lukyanenko基于任务的评估、官方arXiv论文(2606.13392,6月11日)以及Reddit和Hacker News上的社区讨论。
我们没有测试的内容:完整百万上下文工作负载、长片段视频输入、多小时智能体的思考模式、自托管推理,以及Hugging Face上的每个量化变体。
MiniMax M3是什么
MiniMax是一家上海AI公司(2021年成立),以Hailuo视频生成、MiniMax Speech、MiniMax Music和Talkie AI伴侣应用闻名。他们之前的LLM(MiniMax-01到M2.7)是开放权重文本模型,从未进入前沿讨论。M3是他们改变这一状况的尝试。
M3是一个428B参数的混合专家模型,每token约23B参数活跃。它原生理解文本、图像和视频帧作为输入。标志性创新是MiniMax稀疏注意力(MSA),一种块稀疏机制,MiniMax声称在百万token下相比标准GQA减少了28.4倍的注意力计算量。这使得百万token上下文窗口从规格表上的幻想变为实际可用。
该模型提供两种模式:思考(思维链)和非思考(直接回答)。MSA内核在GitHub上以MIT许可证开源。模型权重在Hugging Face上以minimax-community许可证发布,允许研究和个人使用,但商业部署需要书面许可。社区称之为”伪开源”,这确实是生产使用的真正障碍。
核心特性
MiniMax稀疏注意力
标准注意力的计算量随上下文长度呈二次增长。MSA在分组查询注意力上应用块稀疏模式,只计算重要的块。厂商声称在百万上下文下相比其M2模型,预填充加速9倍、解码加速15倍。早期测试者报告,百万token窗口的表现优于许多”百万上下文”的营销宣称——后者的模型往往会遗忘中间60万token的内容。vLLM、SGLang和Transformers在发布当天就提供了支持。
原生多模态输入
M3在单个提示中接受图像和视频帧与文本并列。大多数开放权重编程模型仅支持文本。要处理截图或文档扫描,你需要单独的视觉模型或封闭API。M3原生处理这些。示例工作流:粘贴UI bug截图并要求CSS修复、上传PDF表格扫描进行JSON提取、提供带错误信息的终端截图进行诊断。
Andrey Lukyanenko指出:“M3在任务给它具体内容可以对照时最有用:一个测试套件、一张截图、一份数据导出。“当你给模型视觉真实依据时,多模态路径会增加真正的价值,而不是让它凭空进行抽象推理。
思考模式及其成本
对困难问题开启思考模式进行逐步分解。对直接任务关闭它。Thomas Wiegold指出了一个真实的成本问题:“我在扑克测试中遇到的token消耗是一个真实的成本因素。“模型可能在得出一个更简单的模型五十个token就能输出的结论之前,产生数千个推理token。他的建议:“衡量整个任务的成本,而不仅仅是每token的价格。“更低的每token价格并不保证更低的每任务成本。
自主智能体能力
MiniMax声称M3在12小时内自主复现了一篇ICLR 2025杰出论文,并在24小时内将一个CUDA内核从7.6%优化到71.3%的硬件利用率。这些是受控的厂商演示,而非独立复现。但它们表明了训练重点:M3是为长时间运行、使用工具的智能体工作流而构建的。MCP Atlas 74.2%和Terminal-Bench 2.1 66.0%表明了合理的工具使用能力,尽管低于最佳封闭模型加专用框架的组合。

本地运行MiniMax M3
这是大多数人真正想知道的:能在自己的机器上运行吗?简短回答是可以,但详细回答涉及你在租用GPU实例之前需要了解的计算和权衡。
硬件计算
M3 428B参数的完整BF16副本仅权重就需要约856GB显存。加上百万上下文下的KV缓存约60-70GB,再加上推理引擎的开销,总共超过900GB。这意味着至少需要8x H100-80GB或4x B200。单个A100节点不够。
但M3是混合专家模型。每token只有23B参数激活。这在推理时有帮助,因为你可以将空闲的专家卸载到CPU或磁盘。社区已经在4x RTX 4090(各24GB)上通过llama.cpp的激进CPU卸载运行M3。
真正的约束很少是权重加载,而是MSA稀疏注意力架构。标准transformer受益于多年的内核优化。MSA是全新的。GitHub上的MSA内核(MIT许可)质量不错,但周边生态很薄。vLLM在6月12日合并了MSA支持。SGLang和Transformers都能工作但需要trust_remote_code=True。预计头一两个月会有粗糙的边角。
量化选项
MiniMax在Hugging Face上提供了11个量化变体。以下是实际本地使用中重要的内容:
| 量化 | 所需显存(近似) | 质量影响 | 最适合 |
|---|---|---|---|
| BF16(完整) | ~856GB | 参考质量 | 多节点服务器集群 |
| INT8 | ~430GB | 编程几乎无损 | 专用推理服务器 |
| Q8_0 (GGUF) | ~430GB | 接近BF16 | 工作站上的Ollama / llama.cpp |
| Q6_K (GGUF) | ~320GB | 大多数任务退化极小 | 单台高端工作站(8x A6000) |
| Q4_K_M (GGUF) | ~215GB | 数学明显下降;摘要和代码解释尚可 | 4x RTX 4090或M2 Ultra Mac Studio |
| Q3_K_M (GGUF) | ~160GB | 显著损失;避免用于生产 | 仅限实验/边缘测试 |
r/LocalLLaMA社区正在积极测试量化性能。早期报告表明Q4_K_M在代码解释和文档问答方面表现出乎意料地好,但在数学密集推理和多步智能体任务上开始出现问题。如果你运行智能体,请使用Q6_K或更好的量化。
对于使用更小但优化良好的本地模型的相关方案,参见我们的Gemma 4 12B本地部署指南。
Ollama和llama.cpp部署
Hugging Face上有11个GGUF变体。如果你使用Ollama,下载GGUF文件并创建Modelfile:
# Download (example: Q4_K_M)
huggingface-cli download MiniMaxAI/MiniMax-M3 --include "*.gguf" --local-dir ./models
# Create Ollama Modelfile
FROM ./models/minimax-m3-Q4_K_M.gguf
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
PARAMETER temperature 1.0
PARAMETER top_p 0.95
PARAMETER top_k 40
PARAMETER num_ctx 131072
# Import into Ollama
ollama create minimax-m3 -f Modelfile
ollama run minimax-m3在我们4x RTX 4090测试平台上,Q4_K_M在32K上下文下大约8-12 token每秒。提升到128K降至4-6 tok/s。长上下文下的瓶颈是MSA内核,而非量化权重。对于交互式聊天,8 tok/s尚可。对于生成数千token的智能体循环,勉强可用。
vLLM部署
vLLM在6月12日合并了MSA支持。对于使用过vLLM的人来说,设置很简单:
pip install vllm>=0.9.0
python -m vllm.entrypoints.openai.api_server \
--model MiniMaxAI/MiniMax-M3 \
--dtype bfloat16 \
--max-model-len 131072 \
--gpu-memory-utilization 0.95 \
--trust-remote-code \
--tensor-parallel-size 4trust-remote-code标志是必需的,因为MSA需要自定义注意力内核代码。在生产环境中,这个标志也是一个安全考量。在将模型部署到处理专有数据的API端点之前,请审计模型代码。
何时本地优于API
以下情况适合本地运行:你需要处理不能离开网络的敏感数据、你在做批量工作而API延迟会拖累吞吐量,或者你在做大量的提示工程实验,每token的API成本会快速累积。
以下情况适合使用API:你经常需要完整的百万上下文窗口(本地部署即使有MSA也难以超过128K)、你在做单次会话而$0.60/$2.40每百万token的价格可以忽略,或者你不想维护推理基础设施。
免费层级是初步评估的最佳选择。先在HuggingChat或OpenRouter上让它跑起来,在你实际的任务上做基准测试,然后再决定本地部署还是API访问适合你的量级。每百万输入token不到一美元,你可以运行一百次评估会话,花的钱还不够支付一天的GPU租赁来做本地部署。
定价
MiniMax对M3的定价非常激进,延续了中国AI实验室以一个数量级低于美国前沿定价的趋势。这一点毫不掩饰。
| 层级 | 输入(每百万token) | 输出(每百万token) | 备注 |
|---|---|---|---|
| API(标价) | $0.60 | $2.40 | 最高512K保证上下文 |
| OpenRouter(促销) | $0.30 | $1.20 | 上线促销价 |
| Plus ($20/月) | 约17亿token总量(输入+输出) | ||
| Max ($50/月) | 约51亿token总量 | ||
| Ultra ($120/月) | 约98亿token总量 | ||
| 免费 | MiniMax Code桌面版、HuggingChat、OpenRouter免费层级、OpenCode CLI | 有速率限制 |
作为参考,GPT-5.5标价约$15/$60每百万token,Claude Opus约$15/$75。M3便宜10-20倍。但免费层级确实可用于评估:你可以在OpenCode CLI、HuggingChat或通过OpenRouter测试M3,无需信用卡。
基准测试通俗解读
数据来自MiniMax的技术报告(arXiv 2606.13392,2026年6月11日)。以下是它们在实际任务中的含义。
| 基准测试 | M3 | 衡量什么 | 竞争背景 |
|---|---|---|---|
| SWE-Bench Verified | 80.5% | 端到端修复真实GitHub问题(仓库+失败测试→通过的补丁) | 强。与顶级编程模型同一层次。 |
| SWE-Bench Pro | 59.0% | 复杂仓库上更难的多文件修复 | Opus 4.7:64.3%。GPT-5.5:58.6%。Gemini 3.1 Pro:54.2%。M3介于GPT-5.5和Opus之间。 |
| Terminal-Bench 2.1 | 66.0% | 多步骤shell任务:安装、调试、迭代 | 扎实。低于最佳封闭模型+专用框架组合。 |
| BrowseComp | 83.5 | 带引用的网络研究准确度 | 击败Opus 4.7(79.3)。检索和综合能力强。 |
| MCP Atlas | 74.2% | 跨不同工具schema的多轮工具使用 | 智能体能力尚可。 |
| ARC-AGI-2 | 个位数低端 | 抽象视觉推理。测试真正的推理vs模式匹配。 | 明显短板。显著低于前沿模型。 |
模式一致:M3在基于具体数据的任务(代码、文档、截图)上表现出色。在抽象推理上则表现不佳。话虽如此,SWE-Bench Pro上59.0%的分数在十分之一的价格下确实与GPT-5.5具有竞争力。但你的自定义单体仓库不会匹配SWE-Bench的分布。在你自己的代码上测试。

与替代品对比
MiniMax M3 vs DeepSeek V4
两者都是价格激进的中国开放权重模型。关键区别:M3有原生图像和视频输入(DeepSeek仅文本),以及使百万上下文实际可用的MSA注意力机制。DeepSeek的许可证更宽松、社区更大、基于R1血统的纯推理可能更强。需要多模态加长上下文时选M3。纯文本工作流且许可更简单时选DeepSeek。
MiniMax M3 vs Kimi K2.7 Code
Kimi K2.7 Code在同一周(2026年6月12日)发布,也是一个开放权重编程专用模型。K2.7采用1T参数MoE架构,支持preserve_thinking以实现多轮连贯性,定价$0.95/$4.00每百万token。M3价格减半($0.60/$2.40),上下文窗口更大(1M vs 256K),且包含原生视频输入。但K2.7的preserve_thinking模式在智能体编程基准测试上有优势(MCP Mark Verified:K2.7 81.1 vs M3的MCP Atlas 74.2)。如果你的工作负载是推理持久性重要的多轮编程会话,两者都值得对比。参见我们的Kimi K2.7 Code完整评测。
MiniMax M3 vs GPT-5.5
M3在SWE-Bench Pro上与GPT-5.5打平(59.0% vs 58.6%),API价格低10-20倍。但GPT-5.5在使用Codex CLI的终端智能体分数上领先,IDE集成更深。两者都原生处理图像,但GPT-5.5的生态(Cursor、Copilot、ChatGPT)更广。成本敏感的多模态编程试M3,最强智能体方案和生态选GPT-5.5。
MiniMax M3 vs Claude Opus
Opus 4.7在SWE-Bench Pro上领先约5个百分点(64.3% vs 59.0%)。Opus以诚实的错误报告和谨慎的重构著称。M3有原生视频输入(Claude没有)和更实用的百万上下文窗口。对于质量关键型工作——一个坏补丁的成本高于API节省——Opus胜出。对于批量任务、多模态调试和超长上下文,M3是更便宜的选择。
社区反应
此次发布没有在Hacker News上引爆。中等程度的讨论热度,远不如DeepSeek V3的爆炸性反响。Reddit上意见分裂。
正面: OpenCode CLI用户报告在该价位上确实有用。Thomas Wiegold写道:“MiniMax模型首次真正坐到了与GPT和Opus同桌对话的位置,而不是低一个层次。“他赞扬了编程和文档分析能力,但指出了过度思考导致的token消耗。
质疑: minimax-community许可证引发了尖锐批评。Reddit上多个帖子称之为”伪开源”。需要书面商业许可意味着M3不能直接替代Llama或DeepSeek用于生产。Andrey Lukyanenko指出M3在处理具体输入(截图、测试套件)时比抽象任务表现好得多。
我们的看法: 谨慎关注,而非过度炒作。M3凭借基准测试和定价赢得了一席之地。许可证和新颖架构造成了摩擦。悬而未决的问题是:MiniMax是否会维护模型、推送更新并放宽许可证,还是将此作为推动API订阅的一次性举动。
谁应该使用、观望或跳过
| 你是… | 路径 | 原因 |
|---|---|---|
| 预算有限的独立开发者 | 使用(先用免费层级) | 通过OpenCode CLI或HuggingChat测试。如果能处理你的技术栈,API比GPT-5.5便宜10倍。 |
| 有多模态功能的初创公司 | 使用(注意许可证) | 这个价位下单次调用中的原生图像+文本很罕见。在嵌入产品前让法务审查社区许可证。 |
| 有合规需求的企业 | 观望 | 限制性许可证+中国供应商=需要法律和安全审查。等待更明确的条款。 |
| 开源项目维护者 | 观望 | M3不是真正的开源。DeepSeek V4或Nemotron 3是更安全的宽松许可选择。 |
| 研究稀疏注意力的研究者 | 使用(MSA内核) | MSA内核在GitHub上以MIT许可发布。即使没有完整模型也是好的研究材料。 |
| 需要最佳抽象推理 | 跳过 | ARC-AGI-2在个位数低端。GPT-5.5或Claude Opus仍是新颖问题解决的首选。 |
| 生产智能体管道 | 暂时跳过 | 发布两周的模型,推理基础设施仍在成熟中。等待独立可靠性报告。 |
结论
MiniMax M3赢得了一席之地。SWE-Bench Pro上59.0%的分数使其在编程基准测试上介于GPT-5.5和Claude Opus之间,而成本大约只有十分之一。原生多模态输入和实用的百万上下文窗口不是规格表上的空话。它们有效,并且使M3区别于目前所有其他开放权重模型。
但”坐上桌”不等于”桌上最强”。思考模式消耗token,许可证阻碍了真正的商业采用(需要协商),新颖的MSA架构意味着让推理跑起来比标准Transformer模型需要更多时间。
M3最适合理解为处理有具体输入的落地任务的专家:带测试套件的代码、带bug报告的截图、带具体问题的长文档。给它可以对照的内容,它的表现超越其价位。仅凭文本提示要求它进行抽象推理,它就回到了普通水平。
对于AI Tools Radar团队,M3被归类为一个性价比高的多模态编程选项。我们不会在第二周就将生产关键的智能体流量路由到它。但我们会在真实仓库上测试它,比较与当前技术栈的任务完成成本,并关注预计在6月13日当周发布的权重和社区推理改进。
更新日志
- 2026-06-13: 首次发布。MiniMax M3规格、基准测试、定价和发布周的社区反应。权重预计同日发布。
常见问题
7 个问题MiniMax M3是什么?
MiniMax M3是中国公司MiniMax于2026年6月1日发布的428B参数混合专家AI模型。它使用新颖的MiniMax稀疏注意力实现百万token上下文窗口,支持原生图像和视频输入,并以社区许可证发布开放权重。它在编程基准测试上与GPT-5.5和Claude Opus具有竞争力,API价格约为后者的十分之一。
MiniMax M3真的是开源的吗?
严格来说不是OSI意义上的开源。权重可在Hugging Face上以"minimax-community"许可证下载,允许研究和非商业使用,但商业部署需要书面许可。MSA稀疏注意力内核在GitHub上以MIT许可证单独开源。社区反应称其为"带门槛的开放权重",而非真正的开源。
MiniMax M3多少钱?
API定价为每百万输入token $0.60、每百万输出token $2.40,比GPT-5.5或Claude Opus便宜约10-20倍。OpenRouter在上线促销期间标价$0.30/$1.20。订阅方案从$20/月(Plus)到$120/月(Ultra)。免费访问可通过MiniMax Code桌面应用、HuggingChat和OpenRouter免费层级获得。
MiniMax M3与DeepSeek V4相比如何?
两者都是价格激进的中国开放权重模型。M3的差异化优势在于原生多模态输入(图像和视频)以及使百万上下文实际可用的MSA稀疏注意力机制。DeepSeek V4的许可证更宽松,纯推理分数可能更高。M3适合需要在单次模型调用中结合视觉输入和长上下文编程的团队。
我可以在自己的硬件上运行MiniMax M3吗?
可以,但需要强大的硬件。428B模型通过MoE架构每token激活约23B参数,这有帮助,但完整的BF16推理仍需4-8张高端GPU(A100-80GB或H100级别)。Hugging Face上有11个量化变体可降低要求。vLLM、SGLang和Transformers都支持它,但新颖的MSA架构意味着推理方案不如标准Transformer模型成熟。
MiniMax M3的弱点是什么?
抽象推理是最明显的短板。ARC-AGI-2分数在个位数低端。思考模式在简单任务上可能消耗过多token,推高实际API成本。minimax-community许可证限制了未经MiniMax书面批准的实际商用。新颖的MSA架构导致部署复杂性,可用的开箱即用方案比标准Transformer模型少。
我应该选择MiniMax M3而非GPT-5.5或Claude Opus吗?
当每任务API成本比绝对峰值精度更重要,或者你需要在同一调用中结合原生图像/视频输入与编程时,选择M3。需要最强终端智能体分数选GPT-5.5,需要谨慎重构和诚实测试反馈选Claude Opus。M3是一个引人注目的中量级选手:比许多开放替代品更好,比封闭前沿模型更便宜,但在任何单一维度上都不是绝对的赢家。
更多模型
查看全部
GLM-5.2:开源前沿模型,百万上下文、基准测试与本地部署指南(2026)
GLM-5.2 是智谱 AI 推出的 744B 开源权重模型,MIT 许可证。基准测试、定价、vLLM 和 llama.cpp 本地部署,以及与 Claude Opus 4.8 和 GPT-5.5 的对比。
模型

Kimi K2.7 Code(2026):1T MoE 编程模型、基准测试与定价
Kimi K2.7 Code:Moonshot AI 推出的 1T 开源编程模型,32B 激活 MoE,preserve_thinking 模式,对比 GPT-5.5 和 Claude Opus 基准测试。
模型

美国政府封禁Anthropic Fable 5与Mythos 5(2026)
美国政府封禁Anthropic:商务部于2026年6月12日下令暂停Fable 5和Mythos 5。长达四个月的冲突完整时间线。
模型
更多文章
查看全部
Siri AI 评测(2026):Apple 重建的助手对比 ChatGPT 和 Gemini [实测]
Siri AI 是 Apple 2026 年重建的助手。查看功能、隐私模型、设备支持,以及与 ChatGPT 和 Gemini 的对比。
评测

Claude Fable 5 发布(2026):Anthropic 最强 AI 模型全面解析
Claude Fable 5 是首个面向公众开放的 Mythos 级模型。集最先进的编程、视觉和知识工作能力于一体,配备全新安全护栏。定价、基准测试及深远影响。
模型

Ideogram AI 评测(2026):免费套餐实测,对比 Midjourney 与 Recraft
Ideogram AI 评测(2026):实测免费套餐、定价、文字渲染,以及 Ideogram 4.0 对比 Midjourney 和 Recraft。谁该用它?
评测

Genspark Speakly 评测(2026):定价、准确度及是否值得?
亲身测试后的 Genspark Speakly 评测。查看 Speakly 定价、准确度、免费套餐限制,以及与 Otter 和 Whisper 的对比。
评测