模型
Kimi K2.7 Code(2026):1T MoE 编程模型、基准测试与定价
Kimi K2.7 Code:Moonshot AI 推出的 1T 开源编程模型,32B 激活 MoE,preserve_thinking 模式,对比 GPT-5.5 和 Claude Opus 基准测试。
Kimi K2.7 Code:Moonshot AI 的 1 万亿参数开源编程模型
Kimi K2.7 Code 是 Moonshot AI 推出的全新开源编程模型,总共 1 万亿参数,每个 token 仅激活 320 亿。它专为需要在多轮会话中保持推理线索的开发者打造。代码质量是实打实的——在智能体可靠性基准上超越了 Claude Opus 4.8——但 API 定价属于高端层,这已经引发了一些争议。
更广泛的模型格局请参阅 最新 AI 模型对比(2026)。同周发布的开源权重竞争对手请参阅我们的 MiniMax M3 解析。这些编程模型的直接对比请参阅 DeepSeek V4 vs ChatGPT vs Claude。
快速规格一览
| 规格 | 详情 |
|---|---|
| 发布日期 | 2026 年 6 月 12 日 |
| 总参数量 | 1 万亿 |
| 每 token 激活 | 320 亿 |
| 架构 | 混合专家(MoE),384 个专家,8 个激活 + 1 个共享 |
| 上下文窗口 | 256,000 token |
| 最大输出 | 32,768 token(默认) |
| 视觉 | MoonViT 400M(图像 + 视频) |
| 许可证 | Modified MIT(开源权重) |
| API 定价 | $0.95/M 输入,$0.19/M 缓存,$4.00/M 输出 |
| 免费访问 | kimi.com/code(有速率限制) |
什么是 Kimi K2.7 Code
Moonshot AI 于 2023 年在北京成立,以”Kimi”品牌在 kimi.com 上推出产品。从 K2.0、K2.5、K2.6 到现在的 K2.7 Code——大约十八个月内三次大版本更新,每次都在缩小开源与前沿专有模型之间的差距。
K2.6 是一个通用模型,在编程基准上表现不错。K2.7 Code 采用相同架构,但聚焦于一件事:在长达数十轮的会话中编写、调试和推理代码。
该模型采用混合专家设计,共有 384 个专家。每个 token 经过其中 8 个专家加 1 个共享专家路由。磁盘上总共 1 万亿参数中,每个 token 仅有 320 亿参数被激活。这种极端稀疏性使推理变得实际可行,无需一整机架的 GPU。
它还配备了 MoonViT——一个 4 亿参数的视觉编码器,你可以在编程会话中粘贴截图、架构图或视频帧。大多数编程专用模型完全跳过了多模态。K2.7 没有。
K2.7 强制启用”preserve_thinking”模式——你无法关闭它。模型始终产生一条推理链,跨轮次传递上下文。对于一次性问题,这是多余的开销。但对于持续一小时、涉及六个文件的编程会话来说,正是它让模型在第十二轮时不至于偏离主题。
核心特性
极端稀疏:1T 参数,32B 激活
1 万亿的标题数字很抢眼,但 320 亿激活才是你实际体验到的。K2.7 使用多头潜在注意力(Multi-head Latent Attention,与 DeepSeek 推广的同族),共 61 层,1 层稠密,其余为 MoE 层。
实际上,模型存储了大量知识,但每次请求只触及一小部分。对于总共 1T 参数来说,推理速度比预期更快,专家路由在训练中实现了专业化——有的专家处理 Python 模式,有的处理 Shell 脚本,有的处理 SQL。
风险在于:MoE 模型有时会将 token 路由到错误的专家并产生无意义输出。K2.6 在长会话中偶尔出现路由失败。K2.7 在这方面似乎更紧凑,不过我们还没有进行超过几小时的压力测试。
preserve_thinking:持久化的推理链
大多数推理模型在每轮之后丢弃思维链并从头开始。这对一次性问题没问题。但对于多文件重构的调试来说很糟糕——第五轮依赖于第二轮的上下文。
K2.7 的 preserve_thinking 保持推理链存活。模型会回顾之前的决策,维持三轮前做出的假设,不会忘记选择某种方案的原因。
Moonshot 声称与 K2.6 相比减少了 30% 的思维 token 使用量。模型不需要从头重新推导所有内容。更少的过度思考,更少的 token 浪费,在相同质量水平下响应更快。
但有个限制:你被锁定在思维模式中,temperature 为 1.0,top_p 为 0.95。如果你想要确定性的低温输出用于代码生成,这个模型做不到。Moonshot 的赌注是推理链能弥补随机采样的影响。我们需要更多测试才能知道这个赌注是否成功。
多模态:MoonViT
MoonViT 以 4 亿参数处理图像和视频。它不大——GPT-5.5 使用的编码器要大好几倍——但能处理错误截图、架构图、UI 原型图和短录屏。
在有限测试中,视觉编程功能可用但不神奇。粘贴 React 组件截图要求生成 CSS:可以。展示复杂系统架构图进行评审:有时会漏掉连接关系。能力是真实的,只是别指望它能替代人工阅读设计文档。
编程专精,非通用
K2.7 不是通用聊天模型。提升是实实在在的:Kimi Code Bench V2 提升 +21.8%,Program Bench 提升 +11%,MLS Bench Lite 提升 +31.5%(相对 K2.6)。但这种专精收窄了它的适用范围。K2.6 在写作、分析和创意任务上表现广泛。K2.7 Code 针对函数签名和测试套件优化,不是为写诗而生。
基准测试
Moonshot 发布了六项基准测试,将 K2.7 Code 与 K2.6、GPT-5.5 Codex 和 Claude Opus 4.8 进行对比。以下是完整数据:
编程基准
| 基准 | K2.6 | K2.7 Code | GPT-5.5 Codex | Claude Opus 4.8 |
|---|---|---|---|---|
| Kimi Code Bench V2 | 50.9 | 62.0 | 69.0 | 67.4 |
| Program Bench | 48.3 | 53.6 | 69.1 | 63.8 |
| MLS Bench Lite | 26.7 | 35.1 | 35.5 | 42.8 |
智能体基准
| 基准 | K2.6 | K2.7 Code | GPT-5.5 Codex | Claude Opus 4.8 |
|---|---|---|---|---|
| Kimi Claw 24/7 | 42.9 | 46.9 | 52.8 | 50.4 |
| MCP Atlas | 69.4 | 76.0 | 79.4 | 81.3 |
| MCP Mark Verified | 72.8 | 81.1 | 92.9 | 76.4 |
这些数字意味着什么
六项基准的几何均值:K2.7 Code 56.3%,K2.6 为 48.2%。GPT-5.5 Codex 以 62.7% 领先,Opus 4.8 为 62.2%。相对于 K2.6 提升了 16.8%——这是一次真正的代际飞跃。
在原始编程能力上,GPT-5.5 仍然是王者。它在 Kimi Code Bench V2 上领先 K2.7 七分,Program Bench 上领先 15.5 分。如果你的工作流是写提示-拿代码-搞定,GPT-5.5 更快更准。
但智能体基准翻转了故事。K2.7 在 MCP Mark Verified 上超越了 Opus 4.8(81.1 vs 76.4),该指标衡量可靠的多步骤任务执行。它在 MLS Bench Lite 上几乎追平 GPT-5.5(35.1 vs 35.5)。preserve_thinking 机制在长时间多轮场景中确实发挥了作用。
MCP Atlas 差距仍在:K2.7 为 76.0,Opus 为 81.3,GPT-5.5 为 79.4。前沿模型在工具使用和多步骤编排方面仍然领先。

我们实际测试了什么
我们在 6 月 13 日——发布后第二天——花了大约四小时使用 K2.7 Code,测试了:重构 Python 数据管道、根据规格编写 React 组件、调试 Go 竞态条件、以及生成中等复杂度的 SQL 报表查询。四项任务都完成得很好。Go 竞态条件修复(基于 mutex)一次通过。React 组件正确但代码较冗长。
我们没有测试的:多文件重构、IDE 插件、视频输入、大代码库吞吐量、256K 上下文场景。
本地运行 K2.7 Code
K2.7 Code 是一个 1 万亿参数的 MoE 模型。这个数字听起来不可能在本地运行。但每个 token 只有 320 亿参数被激活。极端稀疏性完全改变了本地托管的计算,开源社区已经围绕它构建了工具链。
稀疏性优势
每次前向传播仅 32B 参数激活,K2.7 Code 的推理成本更接近 32B 稠密模型,而非 1T 稠密模型。完整的 1T 权重存储在磁盘上(或 GPU 内存中,如果你有的话),但每个 token 只触及一小部分。这使得 CPU 卸载变得可行——而对于每个参数每个 token 都要参与计算的 400B+ 稠密模型来说则不然。
实际上,你可以在配备 2-4 块 GPU 和 CPU 卸载非活跃专家的单台高端工作站上运行 K2.7 Code。速度不会很快,但能跑起来。四块 RTX 4090(各 24GB)配合 KTransformers 和 INT4 量化,在 32K 上下文下大约能以 6-10 tok/s 的速度运行 K2.7。
量化与硬件指南
Moonshot 在 Hugging Face 上原生提供 INT4 量化权重。这不是社区的事后补充。K2.7 在训练时就考虑了量化,INT4 权重直接来自 Moonshot 的训练管线。
| 配置 | 硬件 | 32K 下 tok/s | 所需显存 | 质量损失 |
|---|---|---|---|---|
| BF16(完整) | 8x H100-80GB 或 4x B200 | 25-40 tok/s | ~2TB | 参考基线 |
| INT8 | 4x H100 或 8x A100-40GB | 15-25 tok/s | ~1TB | 几乎无损 |
| INT4(vLLM) | 4x A100-80GB 或 8x A6000 | 12-20 tok/s | ~500GB | 对编程影响极小 |
| INT4(KTransformers) | 4x RTX 4090 24GB | 6-10 tok/s | ~96GB + CPU 内存 | 调试可接受 |
| INT4(CPU 卸载) | 2x RTX 4090 + 128GB 内存 | 2-4 tok/s | ~48GB 显存 + 128GB 内存 | 慢但可用 |
KTransformers 项目(github.com/kvcache-ai/ktransformers)对 K2.7 Code 提供一流支持。如果你没有数据中心 GPU 集群,这是推荐的本地部署路径。他们的 INT4 内核针对 K2.7 的 MoE 路由模式进行了专门优化。
vLLM 部署
pip install vllm>=0.9.0
python -m vllm.entrypoints.openai.api_server \
--model moonshotai/Kimi-K2.7-Code \
--dtype auto \
--max-model-len 65536 \
--gpu-memory-utilization 0.90 \
--tensor-parallel-size 4 \
--quantization fp8K2.7 Code 使用标准 MLA 注意力(与 DeepSeek V3 同族),因此不需要 trust_remote_code。INT4 检查点可直接加载,无需自定义内核编译。仅这一点就使得本地部署比使用新型注意力机制的竞争模型顺畅得多。
与另一个拥有成熟本地部署工具的模型的对比,请参阅我们的 Gemma 4 12B 本地部署指南。尽管规模不同,模式是类似的。
KTransformers 适用于消费级硬件
如果你有一台配备 2-4 块消费级 GPU 的台式机,KTransformers 是实际的选择:
git clone https://github.com/kvcache-ai/ktransformers
cd ktransformers
pip install -e .
python -m ktransformers.server \
--model moonshotai/Kimi-K2.7-Code \
--quantization int4 \
--cpu-offload-gb 64 \
--max-context 32768这会将非活跃的 MoE 专家卸载到系统内存,只在 GPU 上保留活跃专家。在 INT4 下,32B 活跃参数需要约 16GB 显存。其余 9680 亿参数的休眠专家存放在 CPU 内存中,在专家路由变化时按需调入。
预计这种配置下 2-4 tok/s。对于交互式聊天来说太慢,但对于过夜批处理任务是可行的。真正的问题是:$4/M 输出 token 的 API 实际上是否比全天候运行多 GPU 设备的电费和硬件折旧更贵。
本地 vs API:真实成本对比
对于一次性编程会话:用 API。免费的 kimi.com 网页聊天可用于评估。单次复杂会话 $5-$10 的付费 API 比一天的 GPU 云租用还便宜。
对于每天数百次调用的 CI 管线:如果你已有硬件,本地托管更划算。一台 4x A100 服务器按年摊销约 $15-20/小时。如果能批量请求并让 GPU 保持满载,本地 INT4 推理在量上优于 $4/M 输出 token 的 API 价格。
对于敏感代码库:本地。毫无疑问。Modified MIT 许可证意味着你可以在任何地方运行 K2.7。数据不会离开你的网络。仅这一点就足以让任何处理专有代码的团队认为部署努力是值得的。
定价
K2.7 Code API 定价为 $0.95/M 输入、$0.19/M 缓存输入和 $4.00/M 输出。kimi.com/code 的免费网页聊天可用于测试,有速率限制。
这是高端定价。DeepSeek V4 Pro 在输入上便宜约 10-15 倍,输出上便宜约 8-12 倍。MiMo V2.5 Pro 在缓存输入上明显更便宜。
痛点在于缓存输入。K2.7 的缓存读取价格为 $0.19/M,约是 DeepSeek 的 53 倍。对于依赖长系统提示词或上下文缓存的开发者——大多数生产用户——这很刺痛。
Hacker News 上的用户 mdasen 直言不讳:“MiMo/DeepSeek 降价的真正省钱之处在于缓存输入。K2.7 在缓存读取上贵 53 倍,吃掉了生产工作负载的价值主张。”
话虽如此,一位开发者 pizlonator 使用 K2.7 将一个 177KB 的 OpenSSL 补丁从 3.3.1 变基到 3.5.7,估计花了 $5-$10。对于这种复杂度的任务来说,这很便宜。
情况是混合的。对于一次性复杂会话,K2.7 价格可以接受。对于每天调用模型数百次的 CI 工作流或应用,缓存输入定价难以合理化。
社区反应
Hacker News 讨论帖在数小时内获得 427 分和 225 条评论。整体情绪积极,但在定价上火药味十足。
Bnjoroge 观察到:“感觉 Kimi 正在将自己定位为高端开源模型。“很准确。Moonshot 不是在跟 DeepSeek 比谁更便宜——他们赌 preserve_thinking 和编程专精能证明更高的价格标签是合理的。
最务实的好评来自真实工作负载。goldenarm 验证了公布数据的几何均值。pizlonator 用不到 $10 将一个 177KB OpenSSL 补丁从 3.3.1 变基到 3.5.7。其他人报告了通过 Claude Code 和 Cursor 成功完成多文件重构。
有人抱怨锁定的 temperature 和思维 token 开销。一些开发者想要确定性输出。大多数人承认推理链是 K2.7 身份的核心——禁用它你就只剩下 K2.6。
yanis_t 表达了一个普遍的不满:“它不搞砸我的项目的能力并不存在。“公平。这个级别没有任何模型能可靠到无人值守的生产使用。问题是哪个模型搞砸时最容易恢复。
竞品对比
Kimi K2.7 Code vs DeepSeek V4 Pro
DeepSeek V4 Pro 在全线上便宜得多,尤其是缓存输入。它在 MCP Atlas 上得分更高,并且有更大的部署工具和社区适配生态。
K2.7 Code 的优势:多模态支持(DeepSeek 仅支持文本)、preserve_thinking 的多轮连贯性,以及在 MCP Mark Verified 上略高的分数。如果你需要视觉输入或长时间编程会话,K2.7 有真正的优势。如果你对价格敏感且只需文本,DeepSeek 是务实的选择。完整的编程模型对比请参阅我们的 DeepSeek V4 vs ChatGPT vs Claude 解析。
Kimi K2.7 Code vs Claude Opus 4.8
在原始基准上 Opus 4.8 是更强的编程模型:Kimi Code Bench V2(67.4 vs 62.0)、Program Bench(63.8 vs 53.6)、MLS Bench Lite(42.8 vs 35.1)。它首次生成的代码更干净、更符合惯用法。
K2.7 在 MCP Mark Verified 上胜出(81.1 vs 76.4),这是衡量可靠任务执行的指标。而且它是开源的,许可证宽松——Opus 是专有的,仅限 API。如果你需要可以自托管或微调的权重,在这两者之间 K2.7 是唯一的选择。
Kimi K2.7 Code vs GPT-5.5 Codex
GPT-5.5 是编程基准的领跑者,可能是截至 2026 年 6 月最好的编程模型。它在每个原始编程指标和几乎每个智能体指标上都超越 K2.7。唯一接近持平的是 MLS Bench Lite(35.5 vs 35.1)。
K2.7 的反击点是开放性。GPT-5.5 是专有的、昂贵的,完全由 OpenAI 控制。K2.7 的权重以 Modified MIT 许可证发布在 Hugging Face 上。对于不能或不愿依赖单一供应商 API 的组织来说,这很重要。

谁该使用 Kimi K2.7 Code
使用它: 如果你是一个长时间编程、在文件间跳转、需要模型记住早期轮次上下文的开发者。preserve_thinking 机制正是为你的工作流而生。如果你需要带多模态输入的开源编程模型——K2.7 是这个类别中目前最强的开源选择。
关注它: 如果你对价格敏感或构建每天数百次 API 调用的生产管线。DeepSeek V4 Pro 和 MiMo V2.5 Pro 以几分之一的成本提供类似质量,尤其是在缓存输入方面。Moonshot 在发布中预告的”6 倍高速模式”可能改变价值等式,但目前尚不可用。
跳过它: 如果你需要一次性提示下的绝对最佳编程准确度且不在意开源。GPT-5.5 Codex 和 Claude Opus 4.8 在原始基准上更强,生成的代码更干净,迭代更少。你为这些模型付了更多钱,但节省的修改时间积少成多。
跳过它: 如果你需要通用模型。K2.7 Code 针对编程进行了窄化优化。K2.6 或基础版 K2.7(如果 Moonshot 发布通用版本)会更好地服务于更广泛的用例。
结论
Kimi K2.7 Code 在与 GPT-5.5 Codex 和 Claude Opus 4.8 同桌的位置上赢得了一席之地。它在原始编程基准上没有超越它们,对于快速一次性生成也不会是你的首选。
但 preserve_thinking 解决了一个真实问题。当模型在第八轮忘记约束或偏离主题时,多轮编程会话就会崩溃。K2.7 保持线索的能力优于开源中的任何其他模型,这对实际开发工作的意义比合成基准上五分的差距更大。
定价是摩擦点。你可以用不到十美元完成严肃的工作,但缓存输入是 DeepSeek 收费的 53 倍。Moonshot 将 K2.7 定价高于开源商品层但低于专有前沿。这个定位能否持续,取决于 DeepSeek 和 MiMo 缩小质量差距的速度。
“6 倍高速模式”的预告值得关注。如果 Moonshot 能在不牺牲推理链的情况下提供更快、更便宜的推理,K2.7 在生产使用中将更有吸引力。在那之前,它是每天几次专注编程会话的优秀模型,对于持续性任务则偏贵。
与 K2.7 同周发布、编程基准相当但价格更低的开源权重替代方案,请参阅我们的 MiniMax M3 解析。

更新日志
- 2026-06-13: 首次发布。Kimi K2.7 Code 规格、基准测试、定价及发布日社区反应。
常见问题
8 个问题什么是 Kimi K2.7 Code?
Kimi K2.7 Code 是 Moonshot AI 推出的开源编程 AI 模型,于 2026 年 6 月 12 日发布。它总共有 1 万亿参数,但采用混合专家(MoE)架构,每个 token 仅激活 320 亿参数。支持 256K 上下文,通过 MoonViT 支持图像和视频输入,并强制启用 preserve_thinking 模式以在多轮编程会话中保持推理连贯性。权重以 Modified MIT 许可证发布在 Hugging Face 上。
Kimi K2.7 Code 的编程能力如何?
它在 Kimi Code Bench V2 上得分 62.0,Program Bench 上得分 53.6——表现扎实,但在原始编程能力上落后于 GPT-5.5 Codex(69.0、69.1)和 Claude Opus 4.8(67.4、63.8)。不过,它在 MCP Mark Verified 上超越了 Opus 4.8(81.1 vs 76.4),在 MLS Bench Lite 上几乎追平 GPT-5.5(35.1 vs 35.5),在智能体编程任务中确实具有竞争力。
Kimi K2.7 Code 的价格是多少?
API 定价为每百万输入 token $0.95,缓存输入 $0.19/M,输出 $4.00/M。这比 DeepSeek V4 Pro 和 MiMo V2.5 Pro 更贵,尤其是在缓存输入方面。kimi.com/code 的免费层允许你免费测试,但有速率限制。
Kimi K2.7 Code 支持图像和视频吗?
是的。它内置了 MoonViT,一个 4 亿参数的视觉编码器,可以在文本之外处理图像和视频输入。这使其成为多模态模型,不同于同量级的大多数编程专用模型。
Kimi K2.7 Code 是开源的吗?
是的,权重以 Modified MIT 许可证发布在 Hugging Face 上,地址为 huggingface.co/moonshotai/Kimi-K2.7-Code。它支持 vLLM、SGLang、KTransformers,并可集成到 Cursor、VS Code、Claude Code、Roo Code 和 Cline 中。
K2.7 Code 与 DeepSeek V4 Pro 相比如何?
DeepSeek V4 Pro 价格低得多,尤其是在缓存输入方面(该指标上比 K2.7 便宜 53 倍)。DeepSeek 在大多数智能体基准测试中得分也更高。K2.7 的主要优势是多模态支持和 preserve_thinking 机制,这些是 DeepSeek 所没有的。
本地运行 Kimi K2.7 Code 需要什么硬件?
尽管每个 token 仅激活 32B,但总共 1 万亿参数仍需要强大的硬件。完整模型需要多块 GPU。大多数用户会通过 API 或 kimi.com 聊天访问。KTransformers 和 vLLM 等项目支持量化推理,但自托管成本不低。
可以在 IDE 中使用 Kimi K2.7 Code 吗?
可以。它可集成到 Cursor、VS Code、Claude Code、Roo Code 和 Cline 中。强制启用的 preserve_thinking 模式意味着它能在 IDE 内的多轮编程会话中保持连贯的推理链,这在编程模型中并不常见。
更多模型
查看全部
GLM-5.2:开源前沿模型,百万上下文、基准测试与本地部署指南(2026)
GLM-5.2 是智谱 AI 推出的 744B 开源权重模型,MIT 许可证。基准测试、定价、vLLM 和 llama.cpp 本地部署,以及与 Claude Opus 4.8 和 GPT-5.5 的对比。
模型

MiniMax M3开源版(2026):428B模型、百万上下文与基准测试
MiniMax M3:428B开放权重模型,通过稀疏注意力实现百万上下文,原生多模态输入,编程基准测试有竞争力,价格比GPT-5.5便宜10倍。
模型

美国政府封禁Anthropic Fable 5与Mythos 5(2026)
美国政府封禁Anthropic:商务部于2026年6月12日下令暂停Fable 5和Mythos 5。长达四个月的冲突完整时间线。
模型
更多文章
查看全部
Siri AI 评测(2026):Apple 重建的助手对比 ChatGPT 和 Gemini [实测]
Siri AI 是 Apple 2026 年重建的助手。查看功能、隐私模型、设备支持,以及与 ChatGPT 和 Gemini 的对比。
评测

Claude Fable 5 发布(2026):Anthropic 最强 AI 模型全面解析
Claude Fable 5 是首个面向公众开放的 Mythos 级模型。集最先进的编程、视觉和知识工作能力于一体,配备全新安全护栏。定价、基准测试及深远影响。
模型

Ideogram AI 评测(2026):免费套餐实测,对比 Midjourney 与 Recraft
Ideogram AI 评测(2026):实测免费套餐、定价、文字渲染,以及 Ideogram 4.0 对比 Midjourney 和 Recraft。谁该用它?
评测

Genspark Speakly 评测(2026):定价、准确度及是否值得?
亲身测试后的 Genspark Speakly 评测。查看 Speakly 定价、准确度、免费套餐限制,以及与 Otter 和 Whisper 的对比。
评测