Gemma 4 12B local setup guide featured image with connected AI model nodes on AI Tools Radar

模型

Gemma 4 12B：下载、Ollama、GGUF 与 QAT 本地部署指南

使用 Ollama、GGUF（Q4_K_M）和 QAT 量化本地运行 Gemma 4 12B。包含显存需求、硬件配置表和安装指南。

AI Tools Radar Editorial 2026年6月5日更新于 2026年6月8日 10 分钟阅读

Gemma 4 12B Unified 于 2026 年 6 月 3 日 发布。一个权重文件同时处理文本、图像和音频，无需像 E2B/E4B 等较小版本那样挂载独立的视觉和音频编码器。119.5 亿 参数，Apache 2.0 许可证，Ollama Q4 拉取约 7.6 GB，使其成为人们真正会在 16 GB 笔记本上尝试的模型。6 月 5 日，Google 为整个 Gemma 4 系列发布了 量化感知训练（QAT） 检查点——12B Q4_0 GGUF 现在约 6.7 GB，且质量优于标准 PTQ。下面的安装路径已包含新的 QAT 仓库。

本页是安装笔记：Gemma 3 有什么变化、如何将其接入 OpenCode、Codex CLI 和 Crush，以及它在哪些方面仍不及 Claude Code 等云端智能体。更广泛的 2026 模型地图请参见最新 AI 模型对比（2026）。安装路径从 Gemma 4 12B 本地部署开始。

最后更新：2026 年 6 月 8 日。发布于 aitoolsradar.org。

快速规格一览

规格	Gemma 4 12B Unified (`google/gemma-4-12B-it`)
参数量	119.5 亿（稠密，无编码器）
上下文	256K token（模型卡标注）；许多运行时限制更低
模态	文本、图像、音频；视频通过帧序列实现
许可证	Apache 2.0（Gemma 4 许可证）
发布日期	2026-06-03（12B）；Gemma 4 系列从 2026-03-31
Ollama 磁盘（Q4_K_M）	约 7.6 GB（`gemma4:12b`）
QAT Q4_0 磁盘	约 6.7 GB 权重（`google/gemma-4-12B-it-qat-q4_0-gguf`）
最适合	本地多模态智能体、OCR 式图像问答、语音识别、隐私敏感草稿
需注意	KV 缓存显存峰值；Ollama 12b 不含音频；12B 尚未上线 OpenRouter

Hugging Face model page for google/gemma-4-12B-it with downloads and multimodal tags — Hugging Face 上 `google/gemma-4-12B-it` 的模型卡。截图来自 huggingface.co，捕获于 2026 年 6 月 5 日。标签和下载量每日变动。

Gemma 4 12B 的独特之处

Google 将这一变体称为 Unified，因为它 移除了 Gemma 4 E2B、E4B 和 31B 上使用的 独立视觉和音频编码器。取而代之：

视觉： 48×48 像素块通过一个小型嵌入器（约 3500 万参数）投影进解码器。
音频： 16 kHz 波形被转为 40 ms 帧，然后线性投影到相同的嵌入空间。
文本： 标准纯解码器 Transformer，采用 混合注意力（滑动窗口 + 全局层；最后一层始终为全局）。

你可以跳过其他 Gemma 4 尺寸所需的额外 1.5 亿到 5.5 亿的视觉塔和 3 亿的音频编码器文件。一次下载，一个运行时。

Unified 并不意味着轻量。KV 缓存、投影器权重和图像 token 预算（模型卡标注每张图 70 到 1120 个 token）仍然会占用显存。

常被引用的基准测试（指令微调版，厂商数据）

Google 在模型卡上公布了这些指令微调版本的数据。我们未重新运行测试套件。适合粗略比较，不适合作为选择你的代码库最佳模型的依据。

基准测试	Gemma 4 12B	Gemma 3 27B（无思维）
MMLU Pro	77.2%	67.6%
AIME 2026（无工具）	77.5%	20.8%
LiveCodeBench v6	72.0%	29.1%
Codeforces ELO	1659	110
GPQA Diamond	78.8%	42.4%
Tau2（智能体平均）	69.0%	16.2%
MMMU Pro（视觉）	69.1%	49.7%
MRCR v2 @ 128k	43.4%	13.5%

评估编程能力，看 LiveCodeBench 和 Codeforces。评估截图和渲染为图像的 PDF，加上 MMMU Pro。该表对比的是 Gemma 4 12B 和 Gemma 3 27B，而非 Gemma 3 12B。

大家怎么用（发布周，2026 年 6 月）

来自 HN、Reddit 和一些我们信任的本地测试：

1. 本地编程与 2026 年智能体 CLI

llama.cpp / Ollama + Q4： 开发者拉取 gemma4:12b 并进行氛围编程测试。Senko 的扫雷基准（来自 HN 链接）报告在 12 GB 显卡上约 5 tok/s，有可修复的语法错误，不是前沿云端质量，但离线可用。
终端智能体（2026 年 6 月）： 开发者将相同的本地端点接入 OpenCode、Codex CLI（ollama / lmstudio provider）、Crush 或 Pi，通过配置中的 baseURL 实现，而非旧式的 IDE 聊天扩展。
云端智能体（另一条赛道）： Claude Code、Cursor Agent、Google Antigravity 和 GitHub Copilot 云智能体 是 2026 年付费日常编程的常见选择。它们原生不支持 Ollama；你需要在 Anthropic/OpenAI/Google 模型上使用它们，Gemma 12B 用于 私有本地推理。
LiteRT-LM serve： Google 文档中提到端口 9379 作为本地 Gemma 的 OpenAI 兼容接口（Edge 博客）。将任何接受自定义 baseURL 的智能体指向该服务器。
混合技术栈： HN 评论者经常在同一台 16 GB 机器上搭配 Gemma 4 处理多模态 + Qwen 3.5 9B 编程，或在同一仓库上云端运行 Codex/Claude Code + 离线运行 OpenCode + Ollama。

如果你需要离线处理截图、音频片段或不想发送到云端 API 的草稿，值得占用这些磁盘空间。但它不会在复杂重构上取代 Claude Code 或 Codex。终端工作方面，OpenCode 或 Crush 指向 Ollama 是常见模式。

2. 多模态工作流（OCR、PDF、截图、视频、语音识别）

工作流	开发者的做法
截图 / UI 问答	在聊天模板中传入 PNG；无需单独的 OCR API
PDF	将页面渲染为图像，或使用 Pi liteparse 技能（Patrick Loeber）
视频	抽帧（如 1 FPS）；Google 演示过主题演讲时长的视频片段
语音识别 / 翻译	12B 原生音频 token；验证你的片段是否支持目标语言
从 CSV 生成图表	Google AI Edge Gallery 在 Mac 上的沙盒中运行 Python

3. 端侧设备（Mac 和 iPhone）

Google AI Edge Gallery 在 iOS 和 macOS 上运行端侧 Gemma 系列模型。
Eloquent 在 Mac 上使用 12B 进行语音编辑（2026 年 6 月发布周上线）。
LiteRT-LM 用于跨平台 CLI 导入和 litert-lm serve。

硬件仍然很重要：不是所有设备都能保证 12B 在手机上 流畅运行。

4. 微调

Unsloth Gemma 4 训练指南： 统一 LoRA 在一次训练中同时涵盖视觉、音频和文本。
Show HN: gemma-tuner-multimodal 用于 Apple Silicon 上的音频微调。作者警告 64 GB Mac 在约 2k token 附近会 OOM。

Gemma 4 12B vs Gemma 3 12B（及 vs E4B）

问题	回答
`gemma 4 12b vs gemma 3 12b`	Gemma 4 在 12B 级别新增音频、无编码器融合、256K 上下文、原生 `system` 角色、思维 + 工具模板、Apache 2.0。Gemma 3 使用独立编码器和旧版 Gemma 许可条款。
`gemma 4 e4b vs gemma 3 12b`	E4B 是约 4.5B 有效参数的手机级模型，带编码器；12B Unified 面向笔记本，编程和智能体分数更强。
vs Qwen 3.5 9B（本地编程）	社区在 16 GB 环境下更倾向 Qwen 用于 Pi 风格编程；Gemma 在多模态 + 翻译广度上胜出，见多个 HN 讨论。建议都测试。
vs Gemma 4 31B / 26B A4B	如果内存充足，使用更大的 Gemma 4；12B 是 16 GB 甜蜜点。

Gemma 4 12B 本地部署（2026 年 6 月）

选择以下一条路径。默认检查点：google/gemma-4-12B-it，除非你自行托管基础模型。

路径 A：Ollama（对大多数人最快）

当你想一条命令搞定 gemma 4 12b ollama 时最佳。

ollama pull gemma4:12b
ollama run gemma4:12b

Ollama library page for gemma4:12b showing Q4_K_M size and vision tag — Ollama `gemma4:12b` 标签（约 7.6 GB Q4_K_M）。截图来自 ollama.com，捕获于 2026 年 6 月 5 日。磁盘大小和标签可能变化。

标签	磁盘	上下文	模态（Ollama 页面）
`gemma4:12b`	约 7.6 GB	256K	文本、图像
`gemma4:12b-it-q8_0`	约 13 GB	256K	文本、图像
`gemma4:12b-mlx`	约 10 GB	128K	仅文本（Mac）

采样参数（厂商 readme）： temperature 1.0，top_p 0.95，top_k 64。

Ollama 中的思维模式： 在系统提示词开头放置 <|think|>。

视觉提示顺序： 图像在文本之前。

12B 音频： 截至 6 月 5 日，Ollama 的 12b 标签不支持音频。使用路径 B 或 D 获取音频支持，或在 Ollama 中使用 gemma4:e4b 获取较小的支持音频构建。

路径 B：llama.cpp + Unsloth GGUF（可控 + 视觉）

当你关注 gemma 4 12b unsloth 量化质量时最佳。Unsloth 现在同时提供 QAT GGUF 和原始量化版本。

从 unsloth/gemma-4-12b-it-GGUF 或 QAT 变体 unsloth/gemma-4-12B-it-qat-GGUF 下载。
获取 mmproj-BF16.gguf（约 175 MB）用于视觉。
推荐量化：UD-Q4_K_XL（约 7.37 GB），根据 Unsloth KL 基准测试。

./llama-server \
  --model gemma-4-12b-it-UD-Q4_K_XL.gguf \
  --mmproj mmproj-BF16.gguf \
  --temp 1.0 --top-p 0.95 --top-k 64 \
  --port 8001 \
  --chat-template-kwargs '{"enable_thinking":false}'

GGUF 大小参考（12B IT，仅权重）：

量化	约大小
UD-IQ3_XXS	4.6 GB
Q4_K_M	7.1 GB
UD-Q4_K_XL	7.4 GB
Q5_K_M	8.4 GB
Q8_0	12.7 GB
BF16	23.8 GB

路径 C：Mac 上的 MLX（`gemma 4 12b on mac`）

资源	约大小	备注
mlx-community/gemma-4-12B-it-4bit	约 11 GB	支持视觉的 MLX
`ollama run gemma4:12b-mlx`	约 10 GB	仅文本，128K

Unsloth 提供了 MLX 聊天安装脚本：

curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/scripts/install_gemma4_mlx.sh | sh
source ~/.unsloth/unsloth_gemma4_mlx/bin/activate
python -m mlx_vlm.chat --model mlx-community/gemma-4-12B-it-4bit

M2/M3 16 GB： 可运行 Q4 级 12B，上下文适中。M2 8 GB： 建议使用 gemma4:e4b 或更高压缩量化。

路径 D：Transformers（完整多模态 + 音频）

当你需要音频 URL、视频帧和 enable_thinking 的 官方模板 时最佳。

pip install -U "transformers>=5.10.1" torch accelerate torchvision librosa

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID, dtype="auto", device_map="auto"
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Summarize this repo layout in five bullets."},
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False,
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=1024)

图像： 在文本前放置 {"type": "image", "url": "..."}。音频： 在指令文本后放置 {"type": "audio", "audio": "..."}（按模型卡要求）。

路径 E：LiteRT-LM（`gemma 4 12b litertlm`）

Google 提供的 OpenAI 兼容本地 API 和 Mac 智能体工作流路径：

litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve

将 2026 年智能体 指向 http://localhost:9379/v1（请在你的构建中确认端口）：

智能体	配置方式
OpenCode	`baseURL` → LiteRT-LM 或 `http://localhost:11434/v1`（Ollama）
Codex CLI	`[model_providers.local]` 使用 `ollama` 或自定义 `base_url`
Crush	`crush.json` 中的 OpenAI 兼容 `base_url`
Pi	`~/.pi/agent/models.json` → `http://localhost:11434/v1`

不原生支持本地： Claude Code、Cursor（仅 BYOK 云 API）、Antigravity 和 Antigravity CLI（云模型；取代已弃用的 Gemini CLI）。

路径 F：vLLM（生产 GPU）

使用 vLLM Gemma 4 12B 配方和 nightly / gemma4-unified 镜像。BF16 舒适推理需 40 GB+ 显存；显存较低时使用 QAT 压缩张量检查点 google/gemma-4-12B-it-qat-w4a16-ct（152k+ 下载）。SGLang 也支持 QAT 检查点用于高效推理。

vllm serve google/gemma-4-12B-it \
  --max-model-len 16384 \
  --enable-auto-tool-choice \
  --reasoning-parser gemma4 \
  --tool-call-parser gemma4 \
  --limit-mm-per-prompt '{"image": 4, "audio": 1}'

显存与内存规划

Google 的仅权重表（请在你的量化版本上实际验证）：

精度	权重内存
Q4_0（QAT）	约 6.7 GB
8-bit	约 13.4 GB
BF16	约 26.7 GB

实际规则： 根据上下文长度额外加 2–8+ GB 用于 KV 缓存。Gemma 模型大词表在 32K 上下文时可能远超权重大小（Ollama 社区报告）。

硬件	建议量化	实际上下文
8 GB 显卡	Q3 / UD-IQ3_XXS	4K–8K
12 GB 显卡	Q4_K_M	8K–16K
16 GB 显卡 / 内存	Ollama `gemma4:12b`	16K–32K
24 GB 显卡	Q8_0 或 Q5_K_M	32K–64K
40 GB+	vLLM BF16	32K+（谨慎提升）

KV 缓存提示（Ollama）： 如果上下文导致显存飙升，尝试 OLLAMA_KV_CACHE_TYPE=q8_0。

Gemma 4 QAT（量化感知训练）—— 2026 年 6 月 5 日

12B 发布两天后，Google 为每个 Gemma 4 尺寸发布了 QAT 检查点。QAT 不是在训练后量化（PTQ），而是在训练过程中模拟量化。结果：压缩权重比标准 PTQ 量化保留更多的原始模型质量。

12B 现在有三个新的 Hugging Face 仓库：

仓库	格式	约下载量（6 月 5 日）	用途
`google/gemma-4-12B-it-qat-q4_0-gguf`	GGUF Q4_0	52k+	llama.cpp、Ollama 导入
`google/gemma-4-12B-it-qat-w4a16-ct`	压缩张量	152k+	vLLM、SGLang
`google/gemma-4-12B-it-qat-q4_0-unquantized`	未量化 BF16	4.5k+	自定义转换为其他格式

Unsloth 也在 unsloth/gemma-4-12B-it-qat-GGUF（121k+ 下载）提供 QAT GGUF 及其 UD 量化版本。Google 还发布了 MTP QAT 检查点，让你在量化权重下也能保持多 token 预测加速。

Hugging Face repo page for google/gemma-4-12B-it-qat-q4_0-gguf showing QAT model card — Google 官方 12B QAT Q4_0 GGUF 在 Hugging Face 上。截图来自 huggingface.co，捕获于 2026-06-05。下载量每日变动。

现在该选哪个量化版本： QAT Q4_0 约 6.7 GB，比标准 Q4_K_M 小约 0.4 GB，且 Google 基准测试显示其质量更接近原始 BF16 模型。如果你已经在 Ollama 中拉取了 gemma4:12b 且运行正常，无需立即切换。但对于全新安装或 vLLM 推理，建议从 QAT 检查点开始。你也可以通过 Transformers.js 在浏览器中直接运行 QAT 模型。

思维模式、工具和系统提示词

Gemma 4 新增了原生 system 角色 和结构化的 函数调用 token。用于智能体：

在 apply_chat_template(..., tools=[...]) 中声明工具。
计划复杂时启用思维模式：enable_thinking=True。
在下一轮用户对话中，从历史记录中删除思维通道，但在同一智能体回合的工具调用之间除外（思维模式文档）。

多 token 预测（MTP）： 可选的草稿器检查点用于加速推理（MTP 概览）。支持的平台包括 Ollama、MLX、vLLM 和 LiteRT-LM。Google 还发布了 MTP QAT 检查点，让你可以同时获得更快解码和保留质量的 QAT 量化。

2026 年编程智能体（如何搭配 Gemma 4 12B）

如果你在 2026 年中期选择智能体，需要分两类：支持本地 OpenAI URL 的终端 CLI，和需要 Anthropic、OpenAI 或 Google 密钥的云 IDE 智能体。Gemma 12B 只适合第一类。

开发者实际在用什么（2026 年 6 月）

OpenCode AI coding agent homepage on opencode.ai — OpenCode 终端智能体 UI。截图来自 opencode.ai，捕获于 2026 年 6 月 5 日。配合 Ollama `baseURL` 使用本地 Gemma。

智能体	类型	支持本地 Gemma 4 12B？	典型角色
Claude Code	终端 + IDE + 桌面	否（云端 Anthropic；仅网关）	日常智能体工作、MCP、子智能体
Codex CLI	终端（OpenAI）	是。原生 `ollama` / `lmstudio` provider	`codex exec`、工作树、自动化
OpenCode	开源终端 + 桌面	是。 Ollama + 任何 OpenAI 兼容 URL	免费/开源多 provider 智能体
Crush	终端（Charm）	是。配置中的 `base_url`	TUI 编程智能体、MCP、LSP 感知编辑
Cursor	AI IDE + CLI	否（仅 BYOK 云密钥）	IDE Agent、Cloud Agent 切换
Antigravity + CLI	Google IDE + 终端	否（云模型）	消费者版 Gemini CLI 迁移到 Antigravity CLI（Google 博客）；企业版 Gemini CLI 继续运行
GitHub Copilot 云智能体	云 PR 智能体	否	GitHub 基础设施上的仓库级任务
Pi	轻量框架	是。 `models.json`	高级用户、扩展、本地控制
OpenClaw	消息编排器	通过后端接入	从聊天分发到 Codex/Cursor/Claude

Google 发布博客仍提及较旧的 OpenAI 适配工具。2026 年 6 月的讨论中，本地接入通常是 OpenCode、Codex CLI 或 Crush。

推荐技术栈：本地 Gemma + 云端前沿

运行权重： ollama pull gemma4:12b 或 litert-lm serve。
本地智能体： ollama launch opencode 或 Pi/Codex 指向 http://localhost:11434/v1。
高难度任务： 同一仓库使用 Claude Code（Opus）或 Codex（GPT-5.5 级）云端运行。
Google UI 赛道： Antigravity 或 Antigravity CLI。Google 正在将消费者版 Gemini CLI 迁移到 Antigravity CLI；企业版 Gemini CLI 继续运行。本地 Gemma 留在 Ollama/OpenCode。

OpenCode + Ollama（可直接复制的配置）

{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "ollama": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "Ollama (local)",
      "options": { "baseURL": "http://localhost:11434/v1" },
      "models": {
        "gemma4:12b": { "name": "Gemma 4 12B (local)" }
      }
    }
  }
}

文档：Ollama + OpenCode。在 16 GB 机器上从 8k 到 16k 上下文开始。逐步提高 num_ctx 直到显存报错；64k 对大多数笔记本来说不太现实。

Codex CLI + Ollama（配置示例）

在 ~/.codex/config.toml 中（请对照高级配置验证）：

[model_providers.local_ollama]
base_url = "http://localhost:11434/v1"

然后为沙盒任务选择 gemma4:12b 作为模型。Codex 是 OpenAI 的智能体 CLI。当你已经在 codex exec 环境中但想使用离线权重时很有用。

Crush + 本地 OpenAI 兼容 API

在 crush.json 中将 OpenAI 兼容 provider 指向 Ollama 或 LiteRT-LM（参见 Crush README 配置部分）。与 Open WebUI + 本地服务器的配置模式相同。

编程适用性表（Gemma 4 12B 本身）

用例	适用度
通过 OpenCode/Crush 离线重构	Q4 + 8K–16K 上下文效果良好
与 Claude Code/Codex 云端使用同一仓库	混合模式：本地处理私有文件，云端用于发布
工具调用智能体	厂商 Tau2 分数强；在 OpenCode 中测试 JSON schema
仓库级 128K 推理	理论可行；在 16 GB 上注意显存
Antigravity / Cursor 默认	使用云端模型；Gemma 是平行的本地赛道

API 和云端路由（`gemma 4 12b api`）

路由	12B 状态（2026 年 6 月 5 日）
Hugging Face Inference / Endpoints	`google/gemma-4-12B-it`
OpenRouter `google/gemma-4-12b-it`	未列出；如需托管 Gemma 4 请暂用 `google/gemma-4-31b-it`
Google AI Studio / Gemini API	系列文档侧重 26B A4B 和 31B。在 Studio 中查看 12B 可用性
Vertex Model Garden	生产级 Gemma 4 系列
本地 OpenAI 适配	`litert-lm serve`、LM Studio server、`llama-server`

更多路由模式请参阅我们的 OpenRouter 免费模型（2026）指南；12B 上线后替换模型 ID。

故障排除

症状	可能原因	解决方法
中等上下文即 CUDA OOM	KV + 视觉 token	降低 `num_ctx`；Q4 量化；减少图像 token
显存远超 7.6 GB	嵌入表 + f16 KV	限制上下文；`OLLAMA_KV_CACHE_TYPE=q8_0`
llama.cpp 视觉失败	缺少 mmproj	添加 `mmproj-BF16.gguf`
`AutoModel` 类错误	Transformers 版本过旧	`pip install -U transformers>=5.10.1`
Ollama 12b 无音频	标签限制	使用 Transformers、LiteRT-LM 或 vLLM
关闭思维后出现空思维标签	12B 模板问题	`enable_thinking=False` 或后处理中去除
vLLM 找不到模型	需要 unified nightly	按配方使用 gemma4-unified 容器

谁该使用、关注还是跳过

受众	结论
注重隐私的开发者（16 GB 显卡）	使用： Ollama 或 UD-Q4_K_XL + mmproj
Mac 上的多模态智能体	使用： LiteRT-LM 或 MLX 4-bit
规模化生产 API	关注：在 12B API 上线稳定前，优先使用 31B 托管或 40 GB+ 上的 vLLM
只需最强本地编程	关注：在你的提示词上与 Qwen 3.5 9B 对比测试
需要商业音频权利保证用于广告	跳过客户项目，直到法务审查完许可条款

AI Tools Radar 相关阅读

最新 AI 模型对比（2026）。Gemma 4 与 GPT-5.5 和 DeepSeek V4 的对比位置
DeepSeek V4 vs ChatGPT vs Claude 编程对比（2026）。如果编程是你的主要技术栈
Devin Desktop vs Cursor（2026）。在本地 Gemma 旁边选择 IDE 智能体赛道
OpenRouter 免费模型（2026）。12B 路由上线前的托管 Gemma 4 31B 模式

更新日志

2026-06-05： 首次发布。Ollama、MLX、LiteRT-LM 本地部署及 2026 年编程智能体（OpenCode、Codex CLI、Crush）配置。消费者版 Gemini CLI 迁移到 Antigravity CLI。
2026-06-08（更新）： 新增 Gemma 4 QAT（量化感知训练）检查点——12B 的 Q4_0 GGUF、vLLM 压缩张量和 Unsloth QAT GGUF。MTP QAT 检查点也已可用。

常见问题

10 个问题

什么是 Gemma 4 12B？

Gemma 4 12B Unified 是 Google DeepMind 的无编码器开源模型，约有 119.5 亿参数。它在一个纯解码器 Transformer 中同时处理文本、图像和音频，模型卡标注最高支持 256K 上下文，采用 Apache 2.0 许可证发布。使用指令微调检查点 google/gemma-4-12B-it 进行对话和智能体任务。

本地运行 Gemma 4 12B 需要多少显存？

Q4_K_M GGUF 或 Ollama gemma4:12b 构建需要约 7.6 GB 用于权重加上视觉投影器，另需额外内存用于 KV 缓存。建议至少 16 GB 统一内存或显存以舒适运行 8K–16K 上下文。8 GB 显卡只能在短上下文下运行激进的 Q3 量化。

Ollama 是否支持 Gemma 4 12B？

是的。运行 ollama pull gemma4:12b 即可获取 7.6 GB 的 Q4_K_M 构建，支持文本和图像输入，标称 256K 上下文。Ollama 的 12b 标签目前未列出音频支持；使用 Transformers、LiteRT-LM 或 vLLM nightly 版本在本地实现 12B 原生音频。

Gemma 4 12B 适合编程吗？

它在 LiveCodeBench v6 和 Codeforces ELO 等厂商编程基准测试中表现不错（相对 Gemma 3）。早期社区测试显示在 12 GB 显卡上约 5 tok/s 的速度可以进行本地编程，但许多开发者仍然更偏好 Qwen 3.5 9B 或更大的 Gemma 4 尺寸用于智能体循环。建议先用你自己的代码库提示词测试后再决定是否切换。

如何启用 Gemma 4 12B 的思维模式？

在系统提示词开头添加 think 标记，或在 Transformers apply_chat_template 中传入 enable_thinking=True。模型会在最终回答前输出一个思维通道。在下一轮对话时从历史记录中去除思维块，但在同一智能体回合的多步工具调用之间除外。

Gemma 4 12B vs Gemma 3 12B：该下载哪个？

如果你需要该尺寸的原生音频支持、无编码器的多模态融合、Apache 2.0 许可证、256K 上下文，以及 Google 公布表格中更强的数学和编程分数，选择 Gemma 4 12B。只有当你已经调优了流水线且暂时不需要音频或新聊天模板时，才继续使用 Gemma 3 12B。

可以在 Mac 上使用 Gemma 4 12B 吗？

可以。Ollama 提供 gemma4:12b-mlx 用于 Apple Silicon 上的文本推理（约 10 GB），或使用 mlx-community/gemma-4-12B-it-4bit 获得支持视觉的 MLX 版本（约 11 GB）。Google 的 AI Edge Gallery 和 LiteRT-LM 也面向 Mac 笔记本，提供 OpenAI 兼容的本地服务。

Gemma 4 12B 在 OpenRouter 上可用吗？

截至 2026 年 6 月 5 日，OpenRouter 列出了 google/gemma-4-31b-it 及免费变体，但没有 12B 的标识。如需 12B 级别的托管 API 访问，请查看 Google AI Studio 或 Vertex Model Garden。对于本地智能体，运行 Ollama 或 litert-lm serve 并将 OpenCode、Codex CLI、Crush 或 Pi 指向 OpenAI 兼容的 base URL。

2026 年哪些 AI 编程智能体支持本地 Gemma 4 12B？

OpenCode、Pi、Codex CLI 和 Crush 支持自定义 base URL 或原生 Ollama provider。Claude Code、Cursor、Google Antigravity 和 GitHub Copilot 云智能体需要云模型才能使用完整的智能体功能。消费者版 Gemini CLI 正在迁移到 Antigravity CLI；企业版 Gemini CLI 继续运行。本地使用 Gemma 搭配 OpenCode 或 Crush 作为终端智能体。在正式生产代码库上继续使用 Claude Code 配 Anthropic、Codex 配 OpenAI。

什么是 Gemma 4 QAT？12B 的检查点在哪里？

QAT（量化感知训练）检查点于 2026 年 6 月 5 日发布，在训练过程中模拟量化，因此压缩权重比标准训练后量化保留更多质量。12B 版本可获取 Q4_0 GGUF（google/gemma-4-12B-it-qat-q4_0-gguf，约 6.7 GB）、vLLM 压缩张量版（google/gemma-4-12B-it-qat-w4a16-ct），或 Unsloth QAT GGUF（unsloth/gemma-4-12B-it-qat-GGUF）。MTP QAT 检查点也已可用。