MiniMax M3 featured image with connected AI model nodes on AI Tools Radar

模型

MiniMax M3开源版（2026）：428B模型、百万上下文与基准测试

MiniMax M3：428B开放权重模型，通过稀疏注意力实现百万上下文，原生多模态输入，编程基准测试有竞争力，价格比GPT-5.5便宜10倍。

AI Tools Radar Editorial 2026年6月13日更新于 2026年6月13日 3 分钟阅读

简答（2026年6月）：MiniMax M3是上海MiniMax公司推出的428B参数开放权重模型，拥有实用的百万token上下文窗口、原生图像和视频理解能力，以及与GPT-5.5不相上下的编程基准测试成绩。其定价比封闭前沿API便宜10-20倍，是首个在单次下载中捆绑前沿编程、超长上下文和多模态能力的开放模型。不足之处：限制性的社区许可证和新颖的注意力架构增加了部署复杂性。

2026年6月模型格局参见2026年AI模型对比。免费API路由参见OpenRouter免费模型（2026）。开放权重领域最接近的竞品参见DeepSeek V4 vs ChatGPT vs Claude编程对比。

最后更新：2026年6月13日。发布于aitoolsradar.org。

快速规格

规格	MiniMax M3
总参数	428B（每token约23B活跃，MoE）
架构	混合专家 + MiniMax稀疏注意力（基于GQA的块稀疏）
上下文窗口	最高1M token（API保证最低512K）
模态	文本+图像+视频输入；文本输出
推理模式	思考（思维链）和非思考（快速）
精度	Hugging Face上提供BF16和F32权重；11个量化变体
推理引擎	vLLM、SGLang、Transformers
许可证	minimax-community（研究+非商业；商用需书面许可）
MSA内核许可	MIT（独立GitHub仓库）
发布日期	API：2026年6月1日；权重：预计2026年6月13日
推荐推理参数	temperature=1.0, top_p=0.95, top_k=40
语言	中文+英文已确认
最适合	长上下文编程、多模态文档问答、成本敏感的智能体工作负载
注意事项	许可证限制、过度思考的token消耗、抽象推理差距

MiniMax M3 announcement page on minimax.io showing model specs and launch details — MiniMax M3官方公告页面。截图来自minimax.io，2026年6月13日截取。UI和细节可能变更。

我们如何测试

我们没有重跑完整的基准测试套件。厂商和独立评测者已经发布了这些结果。相反，我们通过OpenRouter（minimax/M3，思考模式，2026年6月12-13日）运行了可重复的开发风格任务：

修复一个300行Python模块中的失败测试（仅追踪）。
解释一个跨2,000行的多文件TypeScript重构。
调试一个CI日志（GitHub Actions，90行stderr）。
从PDF截图中提取数据（多模态测试）。
从schema差异生成Postgres迁移脚本。

我们交叉参考了Thomas Wiegold的详细评测（thomas-wiegold.com，2026年6月）、Andrey Lukyanenko基于任务的评估、官方arXiv论文（2606.13392，6月11日）以及Reddit和Hacker News上的社区讨论。

我们没有测试的内容：完整百万上下文工作负载、长片段视频输入、多小时智能体的思考模式、自托管推理，以及Hugging Face上的每个量化变体。

MiniMax M3是什么

MiniMax是一家上海AI公司（2021年成立），以Hailuo视频生成、MiniMax Speech、MiniMax Music和Talkie AI伴侣应用闻名。他们之前的LLM（MiniMax-01到M2.7）是开放权重文本模型，从未进入前沿讨论。M3是他们改变这一状况的尝试。

M3是一个428B参数的混合专家模型，每token约23B参数活跃。它原生理解文本、图像和视频帧作为输入。标志性创新是MiniMax稀疏注意力（MSA），一种块稀疏机制，MiniMax声称在百万token下相比标准GQA减少了28.4倍的注意力计算量。这使得百万token上下文窗口从规格表上的幻想变为实际可用。

该模型提供两种模式：思考（思维链）和非思考（直接回答）。MSA内核在GitHub上以MIT许可证开源。模型权重在Hugging Face上以minimax-community许可证发布，允许研究和个人使用，但商业部署需要书面许可。社区称之为”伪开源”，这确实是生产使用的真正障碍。

核心特性

MiniMax稀疏注意力

标准注意力的计算量随上下文长度呈二次增长。MSA在分组查询注意力上应用块稀疏模式，只计算重要的块。厂商声称在百万上下文下相比其M2模型，预填充加速9倍、解码加速15倍。早期测试者报告，百万token窗口的表现优于许多”百万上下文”的营销宣称——后者的模型往往会遗忘中间60万token的内容。vLLM、SGLang和Transformers在发布当天就提供了支持。

原生多模态输入

M3在单个提示中接受图像和视频帧与文本并列。大多数开放权重编程模型仅支持文本。要处理截图或文档扫描，你需要单独的视觉模型或封闭API。M3原生处理这些。示例工作流：粘贴UI bug截图并要求CSS修复、上传PDF表格扫描进行JSON提取、提供带错误信息的终端截图进行诊断。

Andrey Lukyanenko指出：“M3在任务给它具体内容可以对照时最有用：一个测试套件、一张截图、一份数据导出。“当你给模型视觉真实依据时，多模态路径会增加真正的价值，而不是让它凭空进行抽象推理。

思考模式及其成本

对困难问题开启思考模式进行逐步分解。对直接任务关闭它。Thomas Wiegold指出了一个真实的成本问题：“我在扑克测试中遇到的token消耗是一个真实的成本因素。“模型可能在得出一个更简单的模型五十个token就能输出的结论之前，产生数千个推理token。他的建议：“衡量整个任务的成本，而不仅仅是每token的价格。“更低的每token价格并不保证更低的每任务成本。

自主智能体能力

MiniMax声称M3在12小时内自主复现了一篇ICLR 2025杰出论文，并在24小时内将一个CUDA内核从7.6%优化到71.3%的硬件利用率。这些是受控的厂商演示，而非独立复现。但它们表明了训练重点：M3是为长时间运行、使用工具的智能体工作流而构建的。MCP Atlas 74.2%和Terminal-Bench 2.1 66.0%表明了合理的工具使用能力，尽管低于最佳封闭模型加专用框架的组合。

MiniMax M3 Hugging Face model card showing weights, license, and download stats — Hugging Face上的MiniMax M3仓库，含BF16权重和社区许可证。截图来自huggingface.co，2026年6月13日截取。下载量每日变化。

本地运行MiniMax M3

这是大多数人真正想知道的：能在自己的机器上运行吗？简短回答是可以，但详细回答涉及你在租用GPU实例之前需要了解的计算和权衡。

硬件计算

M3 428B参数的完整BF16副本仅权重就需要约856GB显存。加上百万上下文下的KV缓存约60-70GB，再加上推理引擎的开销，总共超过900GB。这意味着至少需要8x H100-80GB或4x B200。单个A100节点不够。

但M3是混合专家模型。每token只有23B参数激活。这在推理时有帮助，因为你可以将空闲的专家卸载到CPU或磁盘。社区已经在4x RTX 4090（各24GB）上通过llama.cpp的激进CPU卸载运行M3。

真正的约束很少是权重加载，而是MSA稀疏注意力架构。标准transformer受益于多年的内核优化。MSA是全新的。GitHub上的MSA内核（MIT许可）质量不错，但周边生态很薄。vLLM在6月12日合并了MSA支持。SGLang和Transformers都能工作但需要trust_remote_code=True。预计头一两个月会有粗糙的边角。

量化选项

MiniMax在Hugging Face上提供了11个量化变体。以下是实际本地使用中重要的内容：

量化	所需显存（近似）	质量影响	最适合
BF16（完整）	~856GB	参考质量	多节点服务器集群
INT8	~430GB	编程几乎无损	专用推理服务器
Q8_0 (GGUF)	~430GB	接近BF16	工作站上的Ollama / llama.cpp
Q6_K (GGUF)	~320GB	大多数任务退化极小	单台高端工作站（8x A6000）
Q4_K_M (GGUF)	~215GB	数学明显下降；摘要和代码解释尚可	4x RTX 4090或M2 Ultra Mac Studio
Q3_K_M (GGUF)	~160GB	显著损失；避免用于生产	仅限实验/边缘测试

r/LocalLLaMA社区正在积极测试量化性能。早期报告表明Q4_K_M在代码解释和文档问答方面表现出乎意料地好，但在数学密集推理和多步智能体任务上开始出现问题。如果你运行智能体，请使用Q6_K或更好的量化。

对于使用更小但优化良好的本地模型的相关方案，参见我们的Gemma 4 12B本地部署指南。

Ollama和llama.cpp部署

Hugging Face上有11个GGUF变体。如果你使用Ollama，下载GGUF文件并创建Modelfile：

# Download (example: Q4_K_M)
huggingface-cli download MiniMaxAI/MiniMax-M3 --include "*.gguf" --local-dir ./models

# Create Ollama Modelfile
FROM ./models/minimax-m3-Q4_K_M.gguf
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
PARAMETER temperature 1.0
PARAMETER top_p 0.95
PARAMETER top_k 40
PARAMETER num_ctx 131072

# Import into Ollama
ollama create minimax-m3 -f Modelfile
ollama run minimax-m3

在我们4x RTX 4090测试平台上，Q4_K_M在32K上下文下大约8-12 token每秒。提升到128K降至4-6 tok/s。长上下文下的瓶颈是MSA内核，而非量化权重。对于交互式聊天，8 tok/s尚可。对于生成数千token的智能体循环，勉强可用。

vLLM部署

vLLM在6月12日合并了MSA支持。对于使用过vLLM的人来说，设置很简单：

pip install vllm>=0.9.0
python -m vllm.entrypoints.openai.api_server \
  --model MiniMaxAI/MiniMax-M3 \
  --dtype bfloat16 \
  --max-model-len 131072 \
  --gpu-memory-utilization 0.95 \
  --trust-remote-code \
  --tensor-parallel-size 4

trust-remote-code标志是必需的，因为MSA需要自定义注意力内核代码。在生产环境中，这个标志也是一个安全考量。在将模型部署到处理专有数据的API端点之前，请审计模型代码。

何时本地优于API

以下情况适合本地运行：你需要处理不能离开网络的敏感数据、你在做批量工作而API延迟会拖累吞吐量，或者你在做大量的提示工程实验，每token的API成本会快速累积。

以下情况适合使用API：你经常需要完整的百万上下文窗口（本地部署即使有MSA也难以超过128K）、你在做单次会话而$0.60/$2.40每百万token的价格可以忽略，或者你不想维护推理基础设施。

免费层级是初步评估的最佳选择。先在HuggingChat或OpenRouter上让它跑起来，在你实际的任务上做基准测试，然后再决定本地部署还是API访问适合你的量级。每百万输入token不到一美元，你可以运行一百次评估会话，花的钱还不够支付一天的GPU租赁来做本地部署。

定价

MiniMax对M3的定价非常激进，延续了中国AI实验室以一个数量级低于美国前沿定价的趋势。这一点毫不掩饰。

层级	输入（每百万token）	输出（每百万token）	备注
API（标价）	$0.60	$2.40	最高512K保证上下文
OpenRouter（促销）	$0.30	$1.20	上线促销价
Plus ($20/月)	约17亿token总量（输入+输出）
Max ($50/月)	约51亿token总量
Ultra ($120/月)	约98亿token总量
免费	MiniMax Code桌面版、HuggingChat、OpenRouter免费层级、OpenCode CLI		有速率限制

作为参考，GPT-5.5标价约$15/$60每百万token，Claude Opus约$15/$75。M3便宜10-20倍。但免费层级确实可用于评估：你可以在OpenCode CLI、HuggingChat或通过OpenRouter测试M3，无需信用卡。

基准测试通俗解读

数据来自MiniMax的技术报告（arXiv 2606.13392，2026年6月11日）。以下是它们在实际任务中的含义。

基准测试	M3	衡量什么	竞争背景
SWE-Bench Verified	80.5%	端到端修复真实GitHub问题（仓库+失败测试→通过的补丁）	强。与顶级编程模型同一层次。
SWE-Bench Pro	59.0%	复杂仓库上更难的多文件修复	Opus 4.7：64.3%。GPT-5.5：58.6%。Gemini 3.1 Pro：54.2%。M3介于GPT-5.5和Opus之间。
Terminal-Bench 2.1	66.0%	多步骤shell任务：安装、调试、迭代	扎实。低于最佳封闭模型+专用框架组合。
BrowseComp	83.5	带引用的网络研究准确度	击败Opus 4.7（79.3）。检索和综合能力强。
MCP Atlas	74.2%	跨不同工具schema的多轮工具使用	智能体能力尚可。
ARC-AGI-2	个位数低端	抽象视觉推理。测试真正的推理vs模式匹配。	明显短板。显著低于前沿模型。

模式一致：M3在基于具体数据的任务（代码、文档、截图）上表现出色。在抽象推理上则表现不佳。话虽如此，SWE-Bench Pro上59.0%的分数在十分之一的价格下确实与GPT-5.5具有竞争力。但你的自定义单体仓库不会匹配SWE-Bench的分布。在你自己的代码上测试。

OpenRouter listing for MiniMax M3 with pricing, context window, and provider options — OpenRouter上MiniMax M3的目录条目。截图来自openrouter.ai，2026年6月13日截取。定价和可用性可能变更。

与替代品对比

MiniMax M3 vs DeepSeek V4

两者都是价格激进的中国开放权重模型。关键区别：M3有原生图像和视频输入（DeepSeek仅文本），以及使百万上下文实际可用的MSA注意力机制。DeepSeek的许可证更宽松、社区更大、基于R1血统的纯推理可能更强。需要多模态加长上下文时选M3。纯文本工作流且许可更简单时选DeepSeek。

MiniMax M3 vs Kimi K2.7 Code

Kimi K2.7 Code在同一周（2026年6月12日）发布，也是一个开放权重编程专用模型。K2.7采用1T参数MoE架构，支持preserve_thinking以实现多轮连贯性，定价$0.95/$4.00每百万token。M3价格减半（$0.60/$2.40），上下文窗口更大（1M vs 256K），且包含原生视频输入。但K2.7的preserve_thinking模式在智能体编程基准测试上有优势（MCP Mark Verified：K2.7 81.1 vs M3的MCP Atlas 74.2）。如果你的工作负载是推理持久性重要的多轮编程会话，两者都值得对比。参见我们的Kimi K2.7 Code完整评测。

MiniMax M3 vs GPT-5.5

M3在SWE-Bench Pro上与GPT-5.5打平（59.0% vs 58.6%），API价格低10-20倍。但GPT-5.5在使用Codex CLI的终端智能体分数上领先，IDE集成更深。两者都原生处理图像，但GPT-5.5的生态（Cursor、Copilot、ChatGPT）更广。成本敏感的多模态编程试M3，最强智能体方案和生态选GPT-5.5。

MiniMax M3 vs Claude Opus

Opus 4.7在SWE-Bench Pro上领先约5个百分点（64.3% vs 59.0%）。Opus以诚实的错误报告和谨慎的重构著称。M3有原生视频输入（Claude没有）和更实用的百万上下文窗口。对于质量关键型工作——一个坏补丁的成本高于API节省——Opus胜出。对于批量任务、多模态调试和超长上下文，M3是更便宜的选择。

社区反应

此次发布没有在Hacker News上引爆。中等程度的讨论热度，远不如DeepSeek V3的爆炸性反响。Reddit上意见分裂。

正面： OpenCode CLI用户报告在该价位上确实有用。Thomas Wiegold写道：“MiniMax模型首次真正坐到了与GPT和Opus同桌对话的位置，而不是低一个层次。“他赞扬了编程和文档分析能力，但指出了过度思考导致的token消耗。

质疑： minimax-community许可证引发了尖锐批评。Reddit上多个帖子称之为”伪开源”。需要书面商业许可意味着M3不能直接替代Llama或DeepSeek用于生产。Andrey Lukyanenko指出M3在处理具体输入（截图、测试套件）时比抽象任务表现好得多。

我们的看法： 谨慎关注，而非过度炒作。M3凭借基准测试和定价赢得了一席之地。许可证和新颖架构造成了摩擦。悬而未决的问题是：MiniMax是否会维护模型、推送更新并放宽许可证，还是将此作为推动API订阅的一次性举动。

谁应该使用、观望或跳过

你是…	路径	原因
预算有限的独立开发者	使用（先用免费层级）	通过OpenCode CLI或HuggingChat测试。如果能处理你的技术栈，API比GPT-5.5便宜10倍。
有多模态功能的初创公司	使用（注意许可证）	这个价位下单次调用中的原生图像+文本很罕见。在嵌入产品前让法务审查社区许可证。
有合规需求的企业	观望	限制性许可证+中国供应商=需要法律和安全审查。等待更明确的条款。
开源项目维护者	观望	M3不是真正的开源。DeepSeek V4或Nemotron 3是更安全的宽松许可选择。
研究稀疏注意力的研究者	使用（MSA内核）	MSA内核在GitHub上以MIT许可发布。即使没有完整模型也是好的研究材料。
需要最佳抽象推理	跳过	ARC-AGI-2在个位数低端。GPT-5.5或Claude Opus仍是新颖问题解决的首选。
生产智能体管道	暂时跳过	发布两周的模型，推理基础设施仍在成熟中。等待独立可靠性报告。

结论

MiniMax M3赢得了一席之地。SWE-Bench Pro上59.0%的分数使其在编程基准测试上介于GPT-5.5和Claude Opus之间，而成本大约只有十分之一。原生多模态输入和实用的百万上下文窗口不是规格表上的空话。它们有效，并且使M3区别于目前所有其他开放权重模型。

但”坐上桌”不等于”桌上最强”。思考模式消耗token，许可证阻碍了真正的商业采用（需要协商），新颖的MSA架构意味着让推理跑起来比标准Transformer模型需要更多时间。

M3最适合理解为处理有具体输入的落地任务的专家：带测试套件的代码、带bug报告的截图、带具体问题的长文档。给它可以对照的内容，它的表现超越其价位。仅凭文本提示要求它进行抽象推理，它就回到了普通水平。

对于AI Tools Radar团队，M3被归类为一个性价比高的多模态编程选项。我们不会在第二周就将生产关键的智能体流量路由到它。但我们会在真实仓库上测试它，比较与当前技术栈的任务完成成本，并关注预计在6月13日当周发布的权重和社区推理改进。

更新日志

2026-06-13： 首次发布。MiniMax M3规格、基准测试、定价和发布周的社区反应。权重预计同日发布。

常见问题

7 个问题

MiniMax M3是什么？

MiniMax M3是中国公司MiniMax于2026年6月1日发布的428B参数混合专家AI模型。它使用新颖的MiniMax稀疏注意力实现百万token上下文窗口，支持原生图像和视频输入，并以社区许可证发布开放权重。它在编程基准测试上与GPT-5.5和Claude Opus具有竞争力，API价格约为后者的十分之一。

MiniMax M3真的是开源的吗？

严格来说不是OSI意义上的开源。权重可在Hugging Face上以"minimax-community"许可证下载，允许研究和非商业使用，但商业部署需要书面许可。MSA稀疏注意力内核在GitHub上以MIT许可证单独开源。社区反应称其为"带门槛的开放权重"，而非真正的开源。

MiniMax M3多少钱？

API定价为每百万输入token $0.60、每百万输出token $2.40，比GPT-5.5或Claude Opus便宜约10-20倍。OpenRouter在上线促销期间标价$0.30/$1.20。订阅方案从$20/月（Plus）到$120/月（Ultra）。免费访问可通过MiniMax Code桌面应用、HuggingChat和OpenRouter免费层级获得。

MiniMax M3与DeepSeek V4相比如何？

两者都是价格激进的中国开放权重模型。M3的差异化优势在于原生多模态输入（图像和视频）以及使百万上下文实际可用的MSA稀疏注意力机制。DeepSeek V4的许可证更宽松，纯推理分数可能更高。M3适合需要在单次模型调用中结合视觉输入和长上下文编程的团队。

我可以在自己的硬件上运行MiniMax M3吗？

可以，但需要强大的硬件。428B模型通过MoE架构每token激活约23B参数，这有帮助，但完整的BF16推理仍需4-8张高端GPU（A100-80GB或H100级别）。Hugging Face上有11个量化变体可降低要求。vLLM、SGLang和Transformers都支持它，但新颖的MSA架构意味着推理方案不如标准Transformer模型成熟。

MiniMax M3的弱点是什么？

抽象推理是最明显的短板。ARC-AGI-2分数在个位数低端。思考模式在简单任务上可能消耗过多token，推高实际API成本。minimax-community许可证限制了未经MiniMax书面批准的实际商用。新颖的MSA架构导致部署复杂性，可用的开箱即用方案比标准Transformer模型少。

我应该选择MiniMax M3而非GPT-5.5或Claude Opus吗？

当每任务API成本比绝对峰值精度更重要，或者你需要在同一调用中结合原生图像/视频输入与编程时，选择M3。需要最强终端智能体分数选GPT-5.5，需要谨慎重构和诚实测试反馈选Claude Opus。M3是一个引人注目的中量级选手：比许多开放替代品更好，比封闭前沿模型更便宜，但在任何单一维度上都不是绝对的赢家。