模型
GLM-5.2:开源前沿模型,百万上下文、基准测试与本地部署指南(2026)
GLM-5.2 是智谱 AI 推出的 744B 开源权重模型,MIT 许可证。基准测试、定价、vLLM 和 llama.cpp 本地部署,以及与 Claude Opus 4.8 和 GPT-5.5 的对比。
简答(2026 年 6 月): GLM-5.2 是智谱 AI 推出的 744B 开源权重模型,MIT 许可证,100 万 token 上下文,384 个混合专家路由,每个 token 激活约 40B 参数。AIME 2026 得分 99.2 登顶,编程方面落后于 Claude Opus 4.8,每 token 成本约为 Opus 或 GPT-5.5 的十分之一。发布时仅支持文本。权重已上传 HuggingFace。这是开源模型最接近前沿专有模型性能的一次。
完整的 2026 年 6 月模型格局请参阅 最新 AI 模型对比(2026)。它所在的编程模型对比请参阅 DeepSeek V4 vs ChatGPT vs Claude。该类别下的所有模型请访问我们的模型中心。
最后更新:2026 年 6 月 17 日。发布于 aitoolsradar.org。
快速规格一览
| 规格 | GLM-5.2 |
|---|---|
| 发布日期 | 2026 年 6 月 13 日 |
| 开发者 | 智谱 AI (Z.ai),前身为 THUDM / 清华大学 |
| 总参数量 | 7440 亿 |
| 每 token 激活 | 约 400 亿(MoE,384 个专家) |
| 上下文窗口 | 1,000,000 token |
| 最大输出 | 131,072 token |
| 模态 | 仅文本(发布时无视觉) |
| 许可证 | MIT(完全开放权重) |
| 注意力机制 | IndexShare 稀疏注意力(百万上下文下 FLOP 降低 2.9 倍) |
| 投机解码 | 改进的多 token 预测(MTP) |
| API 定价 | $1.40/M 输入,$0.26/M 缓存,$4.40/M 输出 |
| HuggingFace | zai-org/GLM-5.2, zai-org/GLM-5.2-FP8 |
| GGUF 量化 | unsloth/GLM-5.2 |
什么是 GLM-5.2
智谱 AI 于 2026 年 6 月 13 日发布了 GLM-5.2,恰好在美国政府要求 Anthropic 下架 Fable 5 的 24 小时之后。这个时间点引发了关注。规格同样引人注目:总计 744B 参数,每 token 激活约 40B,MIT 许可证,百万上下文,无使用限制。
该模型家族起源于清华大学,后通过商业化公司智谱 AI 发展壮大。发展路线为 GLM-5(2 月 11 日)、GLM-5-Turbo(3 月 15 日)、GLM-5.1(4 月 7 日),直到现在的 GLM-5.2。每个版本都拉大了与前一版本的差距,但 5.2 是第一个在数学和科学基准上真正进入前沿领域的版本。
GLM-5.2 采用混合专家(MoE)架构,共 384 个专家。每个 token 激活约 400 亿参数。相比 Kimi K2.7(1T 总量中激活 32B),GLM-5.2 的激活比例更高、总参数更少,这改变了计算特征:需要存储的专家更少,每个专家的参数更多,潜在的专家专业化程度更高。
百万 token 上下文窗口依赖 IndexShare 稀疏注意力,智谱声称在全上下文长度下每 token 的 FLOP 降低了 2.9 倍。这是一个很大的声明。它在真实世界检索任务(而非合成的大海捞针测试)中是否成立,还有待观察。131,072 的最大输出长度也足以在单次生成中完成整个文件。
一个值得注意的缺失:多模态输入。GLM-5.2 仅支持文本。该系列的早期模型(GLM-5V-Turbo)支持图像处理。智谱砍掉了这一功能,将算力预算集中在文本和代码质量上。如果你需要视觉能力,只能等待未来的变体或使用其他模型。

基准测试
智谱在发布时并未公布基准数据。三天后的 6 月 16 日才发布。这一延迟招致了批评。但数据本身发布后,讲述了一个有趣的故事。
| 基准测试 | GLM-5.2 | Claude Opus 4.8 | GPT-5.5 | DeepSeek-V4-Pro | Qwen3.7-Max |
|---|---|---|---|---|---|
| AIME 2026 | 99.2 | 95.7 | 98.3 | 94.6 | 97.0 |
| IMOAnswerBench | 91.0 | 83.5 | n/a | 89.8 | 90.0 |
| GPQA-Diamond | 91.2 | 93.6 | 93.6 | 90.1 | 90.0 |
| HLE | 40.5 | 49.8 | 41.4 | 37.7 | 41.4 |
| SWE-bench Pro | 62.1 | 69.2 | 58.6 | 55.4 | 60.6 |
| Terminal-Bench 2.1 | 81.0 | 85.0 | 84.0 | 64.0 | 75.0 |
| NL2Repo | 48.9 | 69.7 | 50.7 | 35.5 | 47.2 |
| DeepSWE | 46.2 | 58.0 | 70.0 | 8.0 | 18.0 |
数据解读
数学和科学是 GLM-5.2 的最强项。 AIME 2026 得分 99.2,是所有已发布模型(无论开源还是闭源)中最高的。IMOAnswerBench 91.0 同样领先。GPQA-Diamond(研究生级别科学)得分 91.2,仅略低于 Opus 4.8 和 GPT-5.5 的 93.6。
编程有竞争力但并非领先。 SWE-bench Pro 得分 62.1,落后 Opus 4.8 七点一分。Terminal-Bench 2.1 得分 81.0,比 Opus 低 4 分,比 GPT-5.5 低 3 分。NL2Repo 得分 48.9,比 Opus 低 20.8 分。DeepSWE 得分 46.2,落后 GPT-5.5 近 24 分。
客观评价: GLM-5.2 是目前数学领域最好的开源权重模型。在编程方面表现不错,但明显落后于 Claude Opus 4.8,部分基准上也不如 GPT-5.5。在较短、结构化更强的任务上差距缩小,在开放式软件工程任务上差距扩大。
一个提醒:这些是厂商自报的分数。独立验证需要数周时间。请将它们视为方向性参考,而非最终定论。GLM-5.2 在这里列出的每项基准上都超越了 DeepSeek-V4-Pro 和 Qwen3.7-Max,使其成为开源权重领跑者。它能否在实际编程工作负载上缩小与 Opus 4.8 的差距,则是另一个问题。

使用场景
GLM-5.2 进入了一个竞争激烈的领域,但迅速获得了真实的用户关注。Hacker News 帖子获得了 616 个赞和 340+ 条评论。智谱股价在港交所盘中暴涨 48%,收盘涨幅 +32.8%。
长周期智能体编程。 百万上下文窗口加上 131K 最大输出,使 GLM-5.2 对数小时级别的软件工程会话极具吸引力。开发者反馈称,可以将整个代码库加载到上下文中,运行多步重构而不丢失连贯性。
代码库分析。 在百万 token 容量下,你可以将中等规模的代码仓库输入 GLM-5.2,提出架构性问题。IndexShare 稀疏注意力应能在极长上下文下保持检索质量。
工具调用工作流。 GLM-5.2 支持函数调用和 MCP。通过 OpenAI 兼容 API 端点,它可以与 Claude Code、Cline、OpenCode、Roo Code、Goose、Crush、OpenClaw 和 Kilo Code 配合使用。你只需将编程工具指向 vLLM 服务器或 API 提供商即可。
复杂调试。 长上下文下的持续连贯性有助于调试会话,模型需要同时追踪多个文件、错误堆栈和测试输出。
社区批评集中在两点。第一,发布后三天才公布基准数据,让人感觉智谱在看市场反应后才决定发布数据。第二,发布时仅支持文本,让需要视觉输入的团队失望。模型权重在公告后也有轻微延迟上传,不过现已在 HuggingFace 上可用。
定价
GLM-5.2 的定价是它相对闭源模型最明显的优势。
| 模型 | 输入(每百万 token) | 缓存输入(每百万) | 输出(每百万 token) |
|---|---|---|---|
| GLM-5.2 | $1.40 | $0.26 | $4.40 |
| Claude Opus 4.8 | ~$15.00 | 各异 | ~$75.00 |
| GPT-5.5 | ~$10.00 | 各异 | ~$30.00 |
| DeepSeek-V4-Pro | 更便宜 | 更便宜 | 更便宜 |
| GLM-4.5-Flash | 免费 | 免费 | 免费 |
| GLM-4.7-Flash | 免费 | 免费 | 免费 |
差距巨大。GLM-5.2 输出成本 $4.40/M,而 Opus 4.8 约 $75/M。便宜约 17 倍。输入约比 Opus 便宜 10 倍。即使与 GPT-5.5 相比,输出也便宜 7 倍。
对于持续运行智能体循环或批处理的团队来说,这完全改变了成本计算。在 Opus 上花费 $75 的任务,在 GLM-5.2 上只需 $4.40。即使你需要 2-3 倍的迭代次数才能达到 Opus 的质量,总花费仍然少得多。
GLM-5.2 可在 OpenRouter、GMI Cloud、Novita 和 Cloudflare Workers AI 上使用。智谱还提供对旧版 Flash 模型(GLM-4.5-Flash、GLM-4.7-Flash)的免费访问,它们足以应对较轻的任务。更多免费选项请参阅我们的 OpenRouter 免费模型指南。
如何在本地运行 GLM-5.2
这是一个 744B 模型。“本地运行”的含义取决于你的预算。
硬件要求
| 配置 | 所需显存 / 内存 | 硬件示例 | 预期速度 |
|---|---|---|---|
| BF16(全精度) | 约 1,500-1,700 GB 显存 | 16+ 块 H100 80GB | 全速 |
| FP8 | 约 860 GB | 8x H200 或 8x H100 80GB | 接近全速 |
| FP8 + 百万上下文 | 约 1,440 GB | 8x B200 | 最大上下文下全速 |
| Q4_K_M GGUF | 约 476 GB | 多 GPU 集群 | 中等 |
| IQ2_XXS 2-bit GGUF | 约 241 GB | M4 Ultra Mac Studio 256GB | 3-9 tok/s |
| 1-bit GGUF | 约 176 GB 系统内存 | 大内存工作站 | 非常慢 |
自托管的实际门槛要么是 8 块 H200 GPU(硬件成本约 $250,000),要么是顶配 M4 Ultra Mac Studio($10,000-$15,000),以 2-bit 量化运行,速度为每秒 3-9 个 token。两者都不轻松。
vLLM 部署(FP8,8x H200)
这是推荐的生产路径。你需要 vLLM 0.23.0+ 和 Transformers 5.4.0+。
uv pip install "vllm==0.23.0" --torch-backend=auto
uv pip install "transformers>=5.4.0"
vllm serve zai-org/GLM-5.2-FP8 \
--kv-cache-dtype fp8_e4m3 \
--tensor-parallel-size 8 \
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 5 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-5.2-fp8--speculative-config.method mtp 标志启用多 token 预测投机解码,这是智谱专门为该模型设计的。它提前预测 5 个 token 并行验证,在不损失质量的情况下提升吞吐量。
工具调用和推理解析器(glm47、glm45)是模型特定的。不要替换为通用解析器,否则函数调用会出错。
llama.cpp 部署(2-bit GGUF,消费级硬件)
适用于 M4 Ultra 用户或多 GPU 爱好者配置:
./llama.cpp/build/bin/llama-server \
--model ./models/GLM-5-UD-IQ2_XXS.gguf \
--ctx-size 16384 \
--host 0.0.0.0 --port 8080 \
--flash-attn auto注意上下文大小:16,384 token,而非百万。在 2-bit 量化和有限内存下,远远无法达到完整上下文窗口。模型在较短交互中仍然表现良好,但百万 token 的核心卖点在这个量化级别下基本不可用。
GGUF 量化版本由 Unsloth 提供,位于 HuggingFace 的 unsloth/GLM-5.2。

适合消费级硬件的较小 GLM 替代方案
不是每个人都有一架子 H200。智谱维护着可以在你买得到的硬件上运行的较小模型。
| 模型 | 参数量 | 许可证 | 运行平台 | 可类比 |
|---|---|---|---|---|
| GLM-4-32B-0414 | 32B | Apache 2.0 | 消费级 GPU(24GB 显存) | GPT-4o 级别 |
| GLM-Z1-32B-0414 | 32B(推理型) | MIT | 消费级 GPU(24GB 显存) | DeepSeek-R1 级别 |
| GLM-4-9B | 9B | 开放 | 边缘设备、笔记本电脑 | 轻量级任务 |
| GLM-Z1-9B | 9B(推理型) | 开放 | 边缘设备、笔记本电脑 | 轻量级推理 |
32B 模型确实很实用。GLM-4-32B-0414 在通用任务上可与 GPT-4o 匹敌,Q4 量化下可在单块 RTX 4090 上运行。GLM-Z1-32B-0414 是推理变体,在数学问题上可与 DeepSeek-R1 竞争。两者均可本地运行,无需云依赖。
9B 模型用于边缘部署或笔记本推理。它们无法达到前沿质量,但在中等硬件上以合理速度处理代码补全、简单问答和结构化提取。
谁应该使用 GLM-5.2
适合你如果: 你想以开源价格获得接近前沿的质量。数学基准是同类最佳。API 定价比 Opus 或 GPT-5.5 便宜 10-17 倍。MIT 许可证意味着商业使用、自托管和微调没有任何限制。如果你正在构建每 token 成本很重要的生产系统,并且能接受编程任务上的小幅质量差距,GLM-5.2 是目前最强的开源选择。
值得关注如果: 你特别在意编程基准。GLM-5.2 在 SWE-bench Pro 上落后 Opus 4.8 七分,在 NL2Repo 上落后 21 分。对于智能体编程工作流来说,这些差距很显著。智谱可能会通过编程微调变体来缩小差距,但这还没发生。同样值得关注的是如果你需要多模态:仅支持文本对需要向模型传递截图或架构图的团队来说是一个实际限制。
可以跳过如果: 你需要绝对最好的编程模型且预算不是约束。Claude Opus 4.8 在 SWE-bench Pro、Terminal-Bench、NL2Repo 和 HLE 上占据主导地位。GPT-5.5 在 DeepSWE 上领先。如果你的工作流是交付生产代码,且客户费用足以覆盖 Opus 的定价,质量差距足以证明成本的合理性。
可以跳过如果: 你想在消费级硬件上以完整质量运行。即使是 2-bit GGUF 量化也需要 241 GB 内存,速度上限为每秒 3-9 个 token,上下文严重缩减。较小的 GLM-4-32B 模型更适合本地开发。
更大的图景
GLM-5.2 在一个有趣的时刻降临。中国的开源权重模型(DeepSeek、Qwen、Kimi、MiniMax,以及现在的 GLM)正在趋近前沿性能,同时在价格上以一个数量级的优势击败美国专有模型。MIT 许可证、百万上下文、$1.40 的输入定价:这些不是偶然的。它们是一种策略,旨在从 Opus 和 GPT-5.5 手中争夺开发者心智份额。
问题不在于 GLM-5.2 是否好用。它确实好用。问题在于编程差距对你的具体工作负载是否重要。在数学、科学和通用推理方面,GLM-5.2 在 HLE 以外的所有指标上都匹配或超越了一切。在多步软件工程方面,Opus 仍以有意义的幅度领先。而对于简单任务,免费的 Flash 模型或 DeepSeek-V4-Pro 以更低的成本提供了相似的价值。
发布与基准数据之间的三天延迟是一个失误。在信任就是货币的市场中,先发布模型再补发数据让人感觉智谱在确认市场反应后才敢给出具体声明。基准数据足够强劲,这个延迟毫无必要。
同一周发布的开源权重竞争对手,请参阅我们的 Kimi K2.7 Code 解析。这些模型在编程任务上的更全面对比,请参阅 DeepSeek V4 vs ChatGPT vs Claude。
更新日志
- 2026-06-17: 首次发布。GLM-5.2 规格、基准测试(6 月 16 日发布)、定价、本地部署以及发布四天后的社区反馈。
常见问题
7 个问题GLM-5.2 真的是开源的吗?
是的。智谱以 MIT 许可证发布了模型权重,没有地区限制。你可以从 HuggingFace(zai-org/GLM-5.2)下载并自行托管。训练代码不包含在内,仅提供推理权重。
本地运行 GLM-5.2 需要多少显存?
FP8 精度下大约需要 860 GB,意味着至少 8 块 H200 GPU。对于消费级硬件,2-bit GGUF 量化需要约 241 GB 系统内存(可在 256 GB 的 M4 Ultra Mac Studio 上运行),推理速度约为每秒 3 到 9 个 token。
GLM-5.2 与 Claude Opus 4.8 相比表现如何?
GLM-5.2 在 SWE-bench Pro 和 Terminal-Bench 等编程基准上落后 Opus 4.8 约 1 到 13 个百分点。但在数学方面超越了 Opus 4.8(AIME 2026 上 99.2 vs 95.7),且每 token 成本约低 10 倍。它是最接近 Opus 4.8 的开源权重竞争者。
GLM-5.2 的 API 定价是多少?
输入 $1.40/百万 token,缓存输入 $0.26,输出 $4.40。大约比 Claude Opus 4.8 或 GPT-5.5 便宜 5 到 10 倍。可通过 Z.ai、OpenRouter、GMI Cloud 和 Cloudflare Workers AI 使用。
GLM-5.2 可以配合 Claude Code 或 Cursor 等编程工具使用吗?
GLM-5.2 可通过 OpenAI 兼容 API 端点配合 Claude Code、Cline、OpenCode、Roo Code、Goose 等多种编程智能体使用。你只需将工具指向你的 vLLM 服务器或 OpenRouter 等 API 提供商。
GLM-5.2 支持图像或多模态输入吗?
不支持。GLM-5.2 发布时仅支持文本。早期型号如 GLM-5V-Turbo 支持视觉,但 5.2 版本专注于文本和代码任务。
有哪些可以在普通 GPU 上运行的较小 GLM 模型?
GLM-4-32B-0414(Apache 2.0)和 GLM-Z1-32B-0414(MIT)都可以在 24 GB 显存的消费级 GPU 上运行。9B 系列(GLM-4-9B、GLM-Z1-9B)适用于更小的硬件。如果完整的 744B 模型超出你的硬件条件,这些是靠谱的中端选择。
更多模型
查看全部
Kimi K2.7 Code(2026):1T MoE 编程模型、基准测试与定价
Kimi K2.7 Code:Moonshot AI 推出的 1T 开源编程模型,32B 激活 MoE,preserve_thinking 模式,对比 GPT-5.5 和 Claude Opus 基准测试。
模型

MiniMax M3开源版(2026):428B模型、百万上下文与基准测试
MiniMax M3:428B开放权重模型,通过稀疏注意力实现百万上下文,原生多模态输入,编程基准测试有竞争力,价格比GPT-5.5便宜10倍。
模型

美国政府封禁Anthropic Fable 5与Mythos 5(2026)
美国政府封禁Anthropic:商务部于2026年6月12日下令暂停Fable 5和Mythos 5。长达四个月的冲突完整时间线。
模型
更多文章
查看全部
Siri AI 评测(2026):Apple 重建的助手对比 ChatGPT 和 Gemini [实测]
Siri AI 是 Apple 2026 年重建的助手。查看功能、隐私模型、设备支持,以及与 ChatGPT 和 Gemini 的对比。
评测

Claude Fable 5 发布(2026):Anthropic 最强 AI 模型全面解析
Claude Fable 5 是首个面向公众开放的 Mythos 级模型。集最先进的编程、视觉和知识工作能力于一体,配备全新安全护栏。定价、基准测试及深远影响。
模型

Ideogram AI 评测(2026):免费套餐实测,对比 Midjourney 与 Recraft
Ideogram AI 评测(2026):实测免费套餐、定价、文字渲染,以及 Ideogram 4.0 对比 Midjourney 和 Recraft。谁该用它?
评测

Genspark Speakly 评测(2026):定价、准确度及是否值得?
亲身测试后的 Genspark Speakly 评测。查看 Speakly 定价、准确度、免费套餐限制,以及与 Otter 和 Whisper 的对比。
评测