模型
Gemma 4 12B:下载、Ollama、GGUF 与 QAT 本地部署指南
使用 Ollama、GGUF(Q4_K_M)和 QAT 量化本地运行 Gemma 4 12B。包含显存需求、硬件配置表和安装指南。
Gemma 4 12B Unified 于 2026 年 6 月 3 日 发布。一个权重文件同时处理文本、图像和音频,无需像 E2B/E4B 等较小版本那样挂载独立的视觉和音频编码器。119.5 亿 参数,Apache 2.0 许可证,Ollama Q4 拉取约 7.6 GB,使其成为人们真正会在 16 GB 笔记本上尝试的模型。6 月 5 日,Google 为整个 Gemma 4 系列发布了 量化感知训练(QAT) 检查点——12B Q4_0 GGUF 现在约 6.7 GB,且质量优于标准 PTQ。下面的安装路径已包含新的 QAT 仓库。
本页是安装笔记:Gemma 3 有什么变化、如何将其接入 OpenCode、Codex CLI 和 Crush,以及它在哪些方面仍不及 Claude Code 等云端智能体。更广泛的 2026 模型地图请参见 最新 AI 模型对比(2026)。安装路径从 Gemma 4 12B 本地部署 开始。
最后更新:2026 年 6 月 8 日。发布于 aitoolsradar.org。
快速规格一览
| 规格 | Gemma 4 12B Unified (google/gemma-4-12B-it) |
|---|---|
| 参数量 | 119.5 亿(稠密,无编码器) |
| 上下文 | 256K token(模型卡标注);许多运行时限制更低 |
| 模态 | 文本、图像、音频;视频通过帧序列实现 |
| 许可证 | Apache 2.0(Gemma 4 许可证) |
| 发布日期 | 2026-06-03(12B);Gemma 4 系列从 2026-03-31 |
| Ollama 磁盘(Q4_K_M) | 约 7.6 GB(gemma4:12b) |
| QAT Q4_0 磁盘 | 约 6.7 GB 权重(google/gemma-4-12B-it-qat-q4_0-gguf) |
| 最适合 | 本地多模态智能体、OCR 式图像问答、语音识别、隐私敏感草稿 |
| 需注意 | KV 缓存显存峰值;Ollama 12b 不含音频;12B 尚未上线 OpenRouter |

Gemma 4 12B 的独特之处
Google 将这一变体称为 Unified,因为它 移除了 Gemma 4 E2B、E4B 和 31B 上使用的 独立视觉和音频编码器。取而代之:
- 视觉: 48×48 像素块通过一个小型嵌入器(约 3500 万参数)投影进解码器。
- 音频: 16 kHz 波形被转为 40 ms 帧,然后线性投影到相同的嵌入空间。
- 文本: 标准纯解码器 Transformer,采用 混合注意力(滑动窗口 + 全局层;最后一层始终为全局)。
你可以跳过其他 Gemma 4 尺寸所需的额外 1.5 亿到 5.5 亿的视觉塔和 3 亿的音频编码器文件。一次下载,一个运行时。
Unified 并不意味着轻量。KV 缓存、投影器权重和图像 token 预算(模型卡标注每张图 70 到 1120 个 token)仍然会占用显存。
常被引用的基准测试(指令微调版,厂商数据)
Google 在 模型卡 上公布了这些指令微调版本的数据。我们未重新运行测试套件。适合粗略比较,不适合作为选择你的代码库最佳模型的依据。
| 基准测试 | Gemma 4 12B | Gemma 3 27B(无思维) |
|---|---|---|
| MMLU Pro | 77.2% | 67.6% |
| AIME 2026(无工具) | 77.5% | 20.8% |
| LiveCodeBench v6 | 72.0% | 29.1% |
| Codeforces ELO | 1659 | 110 |
| GPQA Diamond | 78.8% | 42.4% |
| Tau2(智能体平均) | 69.0% | 16.2% |
| MMMU Pro(视觉) | 69.1% | 49.7% |
| MRCR v2 @ 128k | 43.4% | 13.5% |
评估编程能力,看 LiveCodeBench 和 Codeforces。评估截图和渲染为图像的 PDF,加上 MMMU Pro。该表对比的是 Gemma 4 12B 和 Gemma 3 27B,而非 Gemma 3 12B。
大家怎么用(发布周,2026 年 6 月)
来自 HN、Reddit 和一些我们信任的本地测试:
1. 本地编程与 2026 年智能体 CLI
- llama.cpp / Ollama + Q4: 开发者拉取
gemma4:12b并进行氛围编程测试。Senko 的扫雷基准(来自 HN 链接)报告在 12 GB 显卡上约 5 tok/s,有可修复的语法错误,不是前沿云端质量,但离线可用。 - 终端智能体(2026 年 6 月): 开发者将相同的本地端点接入 OpenCode、Codex CLI(
ollama/lmstudioprovider)、Crush 或 Pi,通过配置中的baseURL实现,而非旧式的 IDE 聊天扩展。 - 云端智能体(另一条赛道): Claude Code、Cursor Agent、Google Antigravity 和 GitHub Copilot 云智能体 是 2026 年付费日常编程的常见选择。它们原生不支持 Ollama;你需要在 Anthropic/OpenAI/Google 模型上使用它们,Gemma 12B 用于 私有本地推理。
- LiteRT-LM serve: Google 文档中提到端口 9379 作为本地 Gemma 的 OpenAI 兼容接口(Edge 博客)。将任何接受自定义
baseURL的智能体指向该服务器。 - 混合技术栈: HN 评论者经常在同一台 16 GB 机器上搭配 Gemma 4 处理多模态 + Qwen 3.5 9B 编程,或在同一仓库上云端运行 Codex/Claude Code + 离线运行 OpenCode + Ollama。
如果你需要离线处理截图、音频片段或不想发送到云端 API 的草稿,值得占用这些磁盘空间。但它不会在复杂重构上取代 Claude Code 或 Codex。终端工作方面,OpenCode 或 Crush 指向 Ollama 是常见模式。
2. 多模态工作流(OCR、PDF、截图、视频、语音识别)
| 工作流 | 开发者的做法 |
|---|---|
| 截图 / UI 问答 | 在聊天模板中传入 PNG;无需单独的 OCR API |
| 将页面渲染为图像,或使用 Pi liteparse 技能(Patrick Loeber) | |
| 视频 | 抽帧(如 1 FPS);Google 演示过主题演讲时长的视频片段 |
| 语音识别 / 翻译 | 12B 原生音频 token;验证你的片段是否支持目标语言 |
| 从 CSV 生成图表 | Google AI Edge Gallery 在 Mac 上的沙盒中运行 Python |
3. 端侧设备(Mac 和 iPhone)
- Google AI Edge Gallery 在 iOS 和 macOS 上运行端侧 Gemma 系列模型。
- Eloquent 在 Mac 上使用 12B 进行语音编辑(2026 年 6 月发布周上线)。
- LiteRT-LM 用于跨平台 CLI 导入和
litert-lm serve。
硬件仍然很重要:不是所有设备都能保证 12B 在手机上 流畅运行。
4. 微调
- Unsloth Gemma 4 训练指南: 统一 LoRA 在一次训练中同时涵盖视觉、音频和文本。
- Show HN: gemma-tuner-multimodal 用于 Apple Silicon 上的音频微调。作者警告 64 GB Mac 在约 2k token 附近会 OOM。
Gemma 4 12B vs Gemma 3 12B(及 vs E4B)
| 问题 | 回答 |
|---|---|
gemma 4 12b vs gemma 3 12b | Gemma 4 在 12B 级别新增音频、无编码器融合、256K 上下文、原生 system 角色、思维 + 工具模板、Apache 2.0。Gemma 3 使用独立编码器和旧版 Gemma 许可条款。 |
gemma 4 e4b vs gemma 3 12b | E4B 是约 4.5B 有效参数的手机级模型,带编码器;12B Unified 面向笔记本,编程和智能体分数更强。 |
| vs Qwen 3.5 9B(本地编程) | 社区在 16 GB 环境下更倾向 Qwen 用于 Pi 风格编程;Gemma 在多模态 + 翻译广度上胜出,见多个 HN 讨论。建议都测试。 |
| vs Gemma 4 31B / 26B A4B | 如果内存充足,使用更大的 Gemma 4;12B 是 16 GB 甜蜜点。 |
Gemma 4 12B 本地部署(2026 年 6 月)
选择以下一条路径。默认检查点:google/gemma-4-12B-it,除非你自行托管基础模型。
路径 A:Ollama(对大多数人最快)
当你想一条命令搞定 gemma 4 12b ollama 时最佳。
ollama pull gemma4:12b
ollama run gemma4:12b
| 标签 | 磁盘 | 上下文 | 模态(Ollama 页面) |
|---|---|---|---|
gemma4:12b | 约 7.6 GB | 256K | 文本、图像 |
gemma4:12b-it-q8_0 | 约 13 GB | 256K | 文本、图像 |
gemma4:12b-mlx | 约 10 GB | 128K | 仅文本(Mac) |
采样参数(厂商 readme): temperature 1.0,top_p 0.95,top_k 64。
Ollama 中的思维模式: 在系统提示词开头放置 <|think|>。
视觉提示顺序: 图像在文本之前。
12B 音频: 截至 6 月 5 日,Ollama 的 12b 标签不支持音频。使用路径 B 或 D 获取音频支持,或在 Ollama 中使用 gemma4:e4b 获取较小的支持音频构建。
路径 B:llama.cpp + Unsloth GGUF(可控 + 视觉)
当你关注 gemma 4 12b unsloth 量化质量时最佳。Unsloth 现在同时提供 QAT GGUF 和原始量化版本。
- 从 unsloth/gemma-4-12b-it-GGUF 或 QAT 变体 unsloth/gemma-4-12B-it-qat-GGUF 下载。
- 获取
mmproj-BF16.gguf(约 175 MB)用于视觉。 - 推荐量化:
UD-Q4_K_XL(约 7.37 GB),根据 Unsloth KL 基准测试。
./llama-server \
--model gemma-4-12b-it-UD-Q4_K_XL.gguf \
--mmproj mmproj-BF16.gguf \
--temp 1.0 --top-p 0.95 --top-k 64 \
--port 8001 \
--chat-template-kwargs '{"enable_thinking":false}'GGUF 大小参考(12B IT,仅权重):
| 量化 | 约大小 |
|---|---|
| UD-IQ3_XXS | 4.6 GB |
| Q4_K_M | 7.1 GB |
| UD-Q4_K_XL | 7.4 GB |
| Q5_K_M | 8.4 GB |
| Q8_0 | 12.7 GB |
| BF16 | 23.8 GB |
路径 C:Mac 上的 MLX(gemma 4 12b on mac)
| 资源 | 约大小 | 备注 |
|---|---|---|
| mlx-community/gemma-4-12B-it-4bit | 约 11 GB | 支持视觉的 MLX |
ollama run gemma4:12b-mlx | 约 10 GB | 仅文本,128K |
Unsloth 提供了 MLX 聊天安装脚本:
curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/scripts/install_gemma4_mlx.sh | sh
source ~/.unsloth/unsloth_gemma4_mlx/bin/activate
python -m mlx_vlm.chat --model mlx-community/gemma-4-12B-it-4bitM2/M3 16 GB: 可运行 Q4 级 12B,上下文适中。M2 8 GB: 建议使用 gemma4:e4b 或更高压缩量化。
路径 D:Transformers(完整多模态 + 音频)
当你需要音频 URL、视频帧和 enable_thinking 的 官方模板 时最佳。
pip install -U "transformers>=5.10.1" torch accelerate torchvision librosafrom transformers import AutoProcessor, AutoModelForMultimodalLM
MODEL_ID = "google/gemma-4-12B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
MODEL_ID, dtype="auto", device_map="auto"
)
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Summarize this repo layout in five bullets."},
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
return_dict=True,
return_tensors="pt",
add_generation_prompt=True,
enable_thinking=False,
).to(model.device)
outputs = model.generate(**inputs, max_new_tokens=1024)图像: 在文本前放置 {"type": "image", "url": "..."}。音频: 在指令文本后放置 {"type": "audio", "audio": "..."}(按模型卡要求)。
路径 E:LiteRT-LM(gemma 4 12b litertlm)
Google 提供的 OpenAI 兼容本地 API 和 Mac 智能体工作流路径:
litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve将 2026 年智能体 指向 http://localhost:9379/v1(请在你的构建中确认端口):
| 智能体 | 配置方式 |
|---|---|
| OpenCode | baseURL → LiteRT-LM 或 http://localhost:11434/v1(Ollama) |
| Codex CLI | [model_providers.local] 使用 ollama 或自定义 base_url |
| Crush | crush.json 中的 OpenAI 兼容 base_url |
| Pi | ~/.pi/agent/models.json → http://localhost:11434/v1 |
不原生支持本地: Claude Code、Cursor(仅 BYOK 云 API)、Antigravity 和 Antigravity CLI(云模型;取代已弃用的 Gemini CLI)。
路径 F:vLLM(生产 GPU)
使用 vLLM Gemma 4 12B 配方 和 nightly / gemma4-unified 镜像。BF16 舒适推理需 40 GB+ 显存;显存较低时使用 QAT 压缩张量检查点 google/gemma-4-12B-it-qat-w4a16-ct(152k+ 下载)。SGLang 也支持 QAT 检查点用于高效推理。
vllm serve google/gemma-4-12B-it \
--max-model-len 16384 \
--enable-auto-tool-choice \
--reasoning-parser gemma4 \
--tool-call-parser gemma4 \
--limit-mm-per-prompt '{"image": 4, "audio": 1}'显存与内存规划
Google 的仅权重表(请在你的量化版本上实际验证):
| 精度 | 权重内存 |
|---|---|
| Q4_0(QAT) | 约 6.7 GB |
| 8-bit | 约 13.4 GB |
| BF16 | 约 26.7 GB |
实际规则: 根据上下文长度额外加 2–8+ GB 用于 KV 缓存。Gemma 模型大词表在 32K 上下文时可能远超权重大小(Ollama 社区报告)。
| 硬件 | 建议量化 | 实际上下文 |
|---|---|---|
| 8 GB 显卡 | Q3 / UD-IQ3_XXS | 4K–8K |
| 12 GB 显卡 | Q4_K_M | 8K–16K |
| 16 GB 显卡 / 内存 | Ollama gemma4:12b | 16K–32K |
| 24 GB 显卡 | Q8_0 或 Q5_K_M | 32K–64K |
| 40 GB+ | vLLM BF16 | 32K+(谨慎提升) |
KV 缓存提示(Ollama): 如果上下文导致显存飙升,尝试 OLLAMA_KV_CACHE_TYPE=q8_0。
Gemma 4 QAT(量化感知训练)—— 2026 年 6 月 5 日
12B 发布两天后,Google 为每个 Gemma 4 尺寸发布了 QAT 检查点。QAT 不是在训练后量化(PTQ),而是在训练过程中模拟量化。结果:压缩权重比标准 PTQ 量化保留更多的原始模型质量。
12B 现在有三个新的 Hugging Face 仓库:
| 仓库 | 格式 | 约下载量(6 月 5 日) | 用途 |
|---|---|---|---|
google/gemma-4-12B-it-qat-q4_0-gguf | GGUF Q4_0 | 52k+ | llama.cpp、Ollama 导入 |
google/gemma-4-12B-it-qat-w4a16-ct | 压缩张量 | 152k+ | vLLM、SGLang |
google/gemma-4-12B-it-qat-q4_0-unquantized | 未量化 BF16 | 4.5k+ | 自定义转换为其他格式 |
Unsloth 也在 unsloth/gemma-4-12B-it-qat-GGUF(121k+ 下载)提供 QAT GGUF 及其 UD 量化版本。Google 还发布了 MTP QAT 检查点,让你在量化权重下也能保持多 token 预测加速。

现在该选哪个量化版本: QAT Q4_0 约 6.7 GB,比标准 Q4_K_M 小约 0.4 GB,且 Google 基准测试显示其质量更接近原始 BF16 模型。如果你已经在 Ollama 中拉取了 gemma4:12b 且运行正常,无需立即切换。但对于全新安装或 vLLM 推理,建议从 QAT 检查点开始。你也可以通过 Transformers.js 在浏览器中直接运行 QAT 模型。
思维模式、工具和系统提示词
Gemma 4 新增了原生 system 角色 和结构化的 函数调用 token。用于智能体:
- 在
apply_chat_template(..., tools=[...])中声明工具。 - 计划复杂时启用思维模式:
enable_thinking=True。 - 在下一轮用户对话中,从历史记录中删除思维通道,但在同一智能体回合的工具调用之间除外(思维模式文档)。
多 token 预测(MTP): 可选的草稿器检查点用于加速推理(MTP 概览)。支持的平台包括 Ollama、MLX、vLLM 和 LiteRT-LM。Google 还发布了 MTP QAT 检查点,让你可以同时获得更快解码和保留质量的 QAT 量化。
2026 年编程智能体(如何搭配 Gemma 4 12B)
如果你在 2026 年中期选择智能体,需要分两类:支持本地 OpenAI URL 的终端 CLI,和需要 Anthropic、OpenAI 或 Google 密钥的云 IDE 智能体。Gemma 12B 只适合第一类。
开发者实际在用什么(2026 年 6 月)

| 智能体 | 类型 | 支持本地 Gemma 4 12B? | 典型角色 |
|---|---|---|---|
| Claude Code | 终端 + IDE + 桌面 | 否(云端 Anthropic;仅网关) | 日常智能体工作、MCP、子智能体 |
| Codex CLI | 终端(OpenAI) | 是。 原生 ollama / lmstudio provider | codex exec、工作树、自动化 |
| OpenCode | 开源终端 + 桌面 | 是。 Ollama + 任何 OpenAI 兼容 URL | 免费/开源多 provider 智能体 |
| Crush | 终端(Charm) | 是。 配置中的 base_url | TUI 编程智能体、MCP、LSP 感知编辑 |
| Cursor | AI IDE + CLI | 否(仅 BYOK 云密钥) | IDE Agent、Cloud Agent 切换 |
| Antigravity + CLI | Google IDE + 终端 | 否(云模型) | 消费者版 Gemini CLI 迁移到 Antigravity CLI(Google 博客);企业版 Gemini CLI 继续运行 |
| GitHub Copilot 云智能体 | 云 PR 智能体 | 否 | GitHub 基础设施上的仓库级任务 |
| Pi | 轻量框架 | 是。 models.json | 高级用户、扩展、本地控制 |
| OpenClaw | 消息编排器 | 通过后端接入 | 从聊天分发到 Codex/Cursor/Claude |
Google 发布博客仍提及较旧的 OpenAI 适配工具。2026 年 6 月的讨论中,本地接入通常是 OpenCode、Codex CLI 或 Crush。
推荐技术栈:本地 Gemma + 云端前沿
- 运行权重:
ollama pull gemma4:12b或litert-lm serve。 - 本地智能体:
ollama launch opencode或 Pi/Codex 指向http://localhost:11434/v1。 - 高难度任务: 同一仓库使用 Claude Code(Opus)或 Codex(GPT-5.5 级)云端运行。
- Google UI 赛道: Antigravity 或 Antigravity CLI。Google 正在将消费者版 Gemini CLI 迁移到 Antigravity CLI;企业版 Gemini CLI 继续运行。本地 Gemma 留在 Ollama/OpenCode。
OpenCode + Ollama(可直接复制的配置)
{
"$schema": "https://opencode.ai/config.json",
"provider": {
"ollama": {
"npm": "@ai-sdk/openai-compatible",
"name": "Ollama (local)",
"options": { "baseURL": "http://localhost:11434/v1" },
"models": {
"gemma4:12b": { "name": "Gemma 4 12B (local)" }
}
}
}
}文档:Ollama + OpenCode。在 16 GB 机器上从 8k 到 16k 上下文开始。逐步提高 num_ctx 直到显存报错;64k 对大多数笔记本来说不太现实。
Codex CLI + Ollama(配置示例)
在 ~/.codex/config.toml 中(请对照 高级配置 验证):
[model_providers.local_ollama]
base_url = "http://localhost:11434/v1"然后为沙盒任务选择 gemma4:12b 作为模型。Codex 是 OpenAI 的智能体 CLI。当你已经在 codex exec 环境中但想使用离线权重时很有用。
Crush + 本地 OpenAI 兼容 API
在 crush.json 中将 OpenAI 兼容 provider 指向 Ollama 或 LiteRT-LM(参见 Crush README 配置部分)。与 Open WebUI + 本地服务器的配置模式相同。
编程适用性表(Gemma 4 12B 本身)
| 用例 | 适用度 |
|---|---|
| 通过 OpenCode/Crush 离线重构 | Q4 + 8K–16K 上下文效果良好 |
| 与 Claude Code/Codex 云端使用同一仓库 | 混合模式: 本地处理私有文件,云端用于发布 |
| 工具调用智能体 | 厂商 Tau2 分数强;在 OpenCode 中测试 JSON schema |
| 仓库级 128K 推理 | 理论可行;在 16 GB 上注意显存 |
| Antigravity / Cursor 默认 | 使用 云端 模型;Gemma 是平行的本地赛道 |
API 和云端路由(gemma 4 12b api)
| 路由 | 12B 状态(2026 年 6 月 5 日) |
|---|---|
| Hugging Face Inference / Endpoints | google/gemma-4-12B-it |
OpenRouter google/gemma-4-12b-it | 未列出;如需托管 Gemma 4 请暂用 google/gemma-4-31b-it |
| Google AI Studio / Gemini API | 系列文档侧重 26B A4B 和 31B。在 Studio 中查看 12B 可用性 |
| Vertex Model Garden | 生产级 Gemma 4 系列 |
| 本地 OpenAI 适配 | litert-lm serve、LM Studio server、llama-server |
更多路由模式请参阅我们的 OpenRouter 免费模型(2026) 指南;12B 上线后替换模型 ID。
故障排除
| 症状 | 可能原因 | 解决方法 |
|---|---|---|
| 中等上下文即 CUDA OOM | KV + 视觉 token | 降低 num_ctx;Q4 量化;减少图像 token |
| 显存远超 7.6 GB | 嵌入表 + f16 KV | 限制上下文;OLLAMA_KV_CACHE_TYPE=q8_0 |
| llama.cpp 视觉失败 | 缺少 mmproj | 添加 mmproj-BF16.gguf |
AutoModel 类错误 | Transformers 版本过旧 | pip install -U transformers>=5.10.1 |
| Ollama 12b 无音频 | 标签限制 | 使用 Transformers、LiteRT-LM 或 vLLM |
| 关闭思维后出现空思维标签 | 12B 模板问题 | enable_thinking=False 或后处理中去除 |
| vLLM 找不到模型 | 需要 unified nightly | 按配方使用 gemma4-unified 容器 |
谁该使用、关注还是跳过
| 受众 | 结论 |
|---|---|
| 注重隐私的开发者(16 GB 显卡) | 使用: Ollama 或 UD-Q4_K_XL + mmproj |
| Mac 上的多模态智能体 | 使用: LiteRT-LM 或 MLX 4-bit |
| 规模化生产 API | 关注: 在 12B API 上线稳定前,优先使用 31B 托管或 40 GB+ 上的 vLLM |
| 只需最强本地编程 | 关注: 在你的提示词上与 Qwen 3.5 9B 对比测试 |
| 需要商业音频权利保证用于广告 | 跳过 客户项目,直到法务审查完许可条款 |
AI Tools Radar 相关阅读
- 最新 AI 模型对比(2026)。Gemma 4 与 GPT-5.5 和 DeepSeek V4 的对比位置
- DeepSeek V4 vs ChatGPT vs Claude 编程对比(2026)。如果编程是你的主要技术栈
- Devin Desktop vs Cursor(2026)。在本地 Gemma 旁边选择 IDE 智能体赛道
- OpenRouter 免费模型(2026)。12B 路由上线前的托管 Gemma 4 31B 模式
更新日志
- 2026-06-05: 首次发布。Ollama、MLX、LiteRT-LM 本地部署及 2026 年编程智能体(OpenCode、Codex CLI、Crush)配置。消费者版 Gemini CLI 迁移到 Antigravity CLI。
- 2026-06-08(更新): 新增 Gemma 4 QAT(量化感知训练)检查点——12B 的 Q4_0 GGUF、vLLM 压缩张量和 Unsloth QAT GGUF。MTP QAT 检查点也已可用。
常见问题
10 个问题什么是 Gemma 4 12B?
Gemma 4 12B Unified 是 Google DeepMind 的无编码器开源模型,约有 119.5 亿参数。它在一个纯解码器 Transformer 中同时处理文本、图像和音频,模型卡标注最高支持 256K 上下文,采用 Apache 2.0 许可证发布。使用指令微调检查点 google/gemma-4-12B-it 进行对话和智能体任务。
本地运行 Gemma 4 12B 需要多少显存?
Q4_K_M GGUF 或 Ollama gemma4:12b 构建需要约 7.6 GB 用于权重加上视觉投影器,另需额外内存用于 KV 缓存。建议至少 16 GB 统一内存或显存以舒适运行 8K–16K 上下文。8 GB 显卡只能在短上下文下运行激进的 Q3 量化。
Ollama 是否支持 Gemma 4 12B?
是的。运行 ollama pull gemma4:12b 即可获取 7.6 GB 的 Q4_K_M 构建,支持文本和图像输入,标称 256K 上下文。Ollama 的 12b 标签目前未列出音频支持;使用 Transformers、LiteRT-LM 或 vLLM nightly 版本在本地实现 12B 原生音频。
Gemma 4 12B 适合编程吗?
它在 LiveCodeBench v6 和 Codeforces ELO 等厂商编程基准测试中表现不错(相对 Gemma 3)。早期社区测试显示在 12 GB 显卡上约 5 tok/s 的速度可以进行本地编程,但许多开发者仍然更偏好 Qwen 3.5 9B 或更大的 Gemma 4 尺寸用于智能体循环。建议先用你自己的代码库提示词测试后再决定是否切换。
如何启用 Gemma 4 12B 的思维模式?
在系统提示词开头添加 think 标记,或在 Transformers apply_chat_template 中传入 enable_thinking=True。模型会在最终回答前输出一个思维通道。在下一轮对话时从历史记录中去除思维块,但在同一智能体回合的多步工具调用之间除外。
Gemma 4 12B vs Gemma 3 12B:该下载哪个?
如果你需要该尺寸的原生音频支持、无编码器的多模态融合、Apache 2.0 许可证、256K 上下文,以及 Google 公布表格中更强的数学和编程分数,选择 Gemma 4 12B。只有当你已经调优了流水线且暂时不需要音频或新聊天模板时,才继续使用 Gemma 3 12B。
可以在 Mac 上使用 Gemma 4 12B 吗?
可以。Ollama 提供 gemma4:12b-mlx 用于 Apple Silicon 上的文本推理(约 10 GB),或使用 mlx-community/gemma-4-12B-it-4bit 获得支持视觉的 MLX 版本(约 11 GB)。Google 的 AI Edge Gallery 和 LiteRT-LM 也面向 Mac 笔记本,提供 OpenAI 兼容的本地服务。
Gemma 4 12B 在 OpenRouter 上可用吗?
截至 2026 年 6 月 5 日,OpenRouter 列出了 google/gemma-4-31b-it 及免费变体,但没有 12B 的标识。如需 12B 级别的托管 API 访问,请查看 Google AI Studio 或 Vertex Model Garden。对于本地智能体,运行 Ollama 或 litert-lm serve 并将 OpenCode、Codex CLI、Crush 或 Pi 指向 OpenAI 兼容的 base URL。
2026 年哪些 AI 编程智能体支持本地 Gemma 4 12B?
OpenCode、Pi、Codex CLI 和 Crush 支持自定义 base URL 或原生 Ollama provider。Claude Code、Cursor、Google Antigravity 和 GitHub Copilot 云智能体需要云模型才能使用完整的智能体功能。消费者版 Gemini CLI 正在迁移到 Antigravity CLI;企业版 Gemini CLI 继续运行。本地使用 Gemma 搭配 OpenCode 或 Crush 作为终端智能体。在正式生产代码库上继续使用 Claude Code 配 Anthropic、Codex 配 OpenAI。
什么是 Gemma 4 QAT?12B 的检查点在哪里?
QAT(量化感知训练)检查点于 2026 年 6 月 5 日发布,在训练过程中模拟量化,因此压缩权重比标准训练后量化保留更多质量。12B 版本可获取 Q4_0 GGUF(google/gemma-4-12B-it-qat-q4_0-gguf,约 6.7 GB)、vLLM 压缩张量版(google/gemma-4-12B-it-qat-w4a16-ct),或 Unsloth QAT GGUF(unsloth/gemma-4-12B-it-qat-GGUF)。MTP QAT 检查点也已可用。
更多模型
查看全部
GLM-5.2:开源前沿模型,百万上下文、基准测试与本地部署指南(2026)
GLM-5.2 是智谱 AI 推出的 744B 开源权重模型,MIT 许可证。基准测试、定价、vLLM 和 llama.cpp 本地部署,以及与 Claude Opus 4.8 和 GPT-5.5 的对比。
模型

Kimi K2.7 Code(2026):1T MoE 编程模型、基准测试与定价
Kimi K2.7 Code:Moonshot AI 推出的 1T 开源编程模型,32B 激活 MoE,preserve_thinking 模式,对比 GPT-5.5 和 Claude Opus 基准测试。
模型

MiniMax M3开源版(2026):428B模型、百万上下文与基准测试
MiniMax M3:428B开放权重模型,通过稀疏注意力实现百万上下文,原生多模态输入,编程基准测试有竞争力,价格比GPT-5.5便宜10倍。
模型
更多文章
查看全部
美国政府封禁Anthropic Fable 5与Mythos 5(2026)
美国政府封禁Anthropic:商务部于2026年6月12日下令暂停Fable 5和Mythos 5。长达四个月的冲突完整时间线。
模型

Siri AI 评测(2026):Apple 重建的助手对比 ChatGPT 和 Gemini [实测]
Siri AI 是 Apple 2026 年重建的助手。查看功能、隐私模型、设备支持,以及与 ChatGPT 和 Gemini 的对比。
评测

Claude Fable 5 发布(2026):Anthropic 最强 AI 模型全面解析
Claude Fable 5 是首个面向公众开放的 Mythos 级模型。集最先进的编程、视觉和知识工作能力于一体,配备全新安全护栏。定价、基准测试及深远影响。
模型

Ideogram AI 评测(2026):免费套餐实测,对比 Midjourney 与 Recraft
Ideogram AI 评测(2026):实测免费套餐、定价、文字渲染,以及 Ideogram 4.0 对比 Midjourney 和 Recraft。谁该用它?
评测