AI Tools Radar
English
Gemma 4 12B local setup guide featured image with connected AI model nodes on AI Tools Radar

模型

Gemma 4 12B:下载、Ollama、GGUF 与 QAT 本地部署指南

使用 Ollama、GGUF(Q4_K_M)和 QAT 量化本地运行 Gemma 4 12B。包含显存需求、硬件配置表和安装指南。

AI Tools Radar Editorial 10 分钟阅读

Gemma 4 12B Unified 于 2026 年 6 月 3 日 发布。一个权重文件同时处理文本、图像和音频,无需像 E2B/E4B 等较小版本那样挂载独立的视觉和音频编码器。119.5 亿 参数,Apache 2.0 许可证,Ollama Q4 拉取约 7.6 GB,使其成为人们真正会在 16 GB 笔记本上尝试的模型。6 月 5 日,Google 为整个 Gemma 4 系列发布了 量化感知训练(QAT) 检查点——12B Q4_0 GGUF 现在约 6.7 GB,且质量优于标准 PTQ。下面的安装路径已包含新的 QAT 仓库。

本页是安装笔记:Gemma 3 有什么变化、如何将其接入 OpenCodeCodex CLICrush,以及它在哪些方面仍不及 Claude Code 等云端智能体。更广泛的 2026 模型地图请参见 最新 AI 模型对比(2026)。安装路径从 Gemma 4 12B 本地部署 开始。

最后更新:2026 年 6 月 8 日。发布于 aitoolsradar.org

快速规格一览

规格Gemma 4 12B Unified (google/gemma-4-12B-it)
参数量119.5 亿(稠密,无编码器)
上下文256K token(模型卡标注);许多运行时限制更低
模态文本、图像、音频;视频通过帧序列实现
许可证Apache 2.0(Gemma 4 许可证
发布日期2026-06-03(12B);Gemma 4 系列从 2026-03-31
Ollama 磁盘(Q4_K_M)约 7.6 GB(gemma4:12b
QAT Q4_0 磁盘约 6.7 GB 权重(google/gemma-4-12B-it-qat-q4_0-gguf
最适合本地多模态智能体、OCR 式图像问答、语音识别、隐私敏感草稿
需注意KV 缓存显存峰值;Ollama 12b 不含音频;12B 尚未上线 OpenRouter

Hugging Face model page for google/gemma-4-12B-it with downloads and multimodal tags

Hugging Face 上 `google/gemma-4-12B-it` 的模型卡。截图来自 huggingface.co,捕获于 2026 年 6 月 5 日。标签和下载量每日变动。

Gemma 4 12B 的独特之处

Google 将这一变体称为 Unified,因为它 移除了 Gemma 4 E2B、E4B 和 31B 上使用的 独立视觉和音频编码器。取而代之:

  • 视觉: 48×48 像素块通过一个小型嵌入器(约 3500 万参数)投影进解码器。
  • 音频: 16 kHz 波形被转为 40 ms 帧,然后线性投影到相同的嵌入空间。
  • 文本: 标准纯解码器 Transformer,采用 混合注意力(滑动窗口 + 全局层;最后一层始终为全局)。

你可以跳过其他 Gemma 4 尺寸所需的额外 1.5 亿到 5.5 亿的视觉塔和 3 亿的音频编码器文件。一次下载,一个运行时。

Unified 并不意味着轻量。KV 缓存、投影器权重和图像 token 预算(模型卡标注每张图 70 到 1120 个 token)仍然会占用显存。

常被引用的基准测试(指令微调版,厂商数据)

Google 在 模型卡 上公布了这些指令微调版本的数据。我们未重新运行测试套件。适合粗略比较,不适合作为选择你的代码库最佳模型的依据。

基准测试Gemma 4 12BGemma 3 27B(无思维)
MMLU Pro77.2%67.6%
AIME 2026(无工具)77.5%20.8%
LiveCodeBench v672.0%29.1%
Codeforces ELO1659110
GPQA Diamond78.8%42.4%
Tau2(智能体平均)69.0%16.2%
MMMU Pro(视觉)69.1%49.7%
MRCR v2 @ 128k43.4%13.5%

评估编程能力,看 LiveCodeBench 和 Codeforces。评估截图和渲染为图像的 PDF,加上 MMMU Pro。该表对比的是 Gemma 4 12BGemma 3 27B,而非 Gemma 3 12B。

大家怎么用(发布周,2026 年 6 月)

来自 HN、Reddit 和一些我们信任的本地测试:

1. 本地编程与 2026 年智能体 CLI

  • llama.cpp / Ollama + Q4: 开发者拉取 gemma4:12b 并进行氛围编程测试。Senko 的扫雷基准(来自 HN 链接)报告在 12 GB 显卡上约 5 tok/s,有可修复的语法错误,不是前沿云端质量,但离线可用。
  • 终端智能体(2026 年 6 月): 开发者将相同的本地端点接入 OpenCodeCodex CLIollama / lmstudio provider)、CrushPi,通过配置中的 baseURL 实现,而非旧式的 IDE 聊天扩展。
  • 云端智能体(另一条赛道): Claude CodeCursor Agent、Google AntigravityGitHub Copilot 云智能体 是 2026 年付费日常编程的常见选择。它们原生不支持 Ollama;你需要在 Anthropic/OpenAI/Google 模型上使用它们,Gemma 12B 用于 私有本地推理
  • LiteRT-LM serve: Google 文档中提到端口 9379 作为本地 Gemma 的 OpenAI 兼容接口(Edge 博客)。将任何接受自定义 baseURL 的智能体指向该服务器。
  • 混合技术栈: HN 评论者经常在同一台 16 GB 机器上搭配 Gemma 4 处理多模态 + Qwen 3.5 9B 编程,或在同一仓库上云端运行 Codex/Claude Code + 离线运行 OpenCode + Ollama

如果你需要离线处理截图、音频片段或不想发送到云端 API 的草稿,值得占用这些磁盘空间。但它不会在复杂重构上取代 Claude CodeCodex。终端工作方面,OpenCodeCrush 指向 Ollama 是常见模式。

2. 多模态工作流(OCR、PDF、截图、视频、语音识别)

工作流开发者的做法
截图 / UI 问答在聊天模板中传入 PNG;无需单独的 OCR API
PDF将页面渲染为图像,或使用 Pi liteparse 技能(Patrick Loeber
视频抽帧(如 1 FPS);Google 演示过主题演讲时长的视频片段
语音识别 / 翻译12B 原生音频 token;验证你的片段是否支持目标语言
从 CSV 生成图表Google AI Edge Gallery 在 Mac 上的沙盒中运行 Python

3. 端侧设备(Mac 和 iPhone)

  • Google AI Edge Gallery 在 iOS 和 macOS 上运行端侧 Gemma 系列模型。
  • Eloquent 在 Mac 上使用 12B 进行语音编辑(2026 年 6 月发布周上线)。
  • LiteRT-LM 用于跨平台 CLI 导入和 litert-lm serve

硬件仍然很重要:不是所有设备都能保证 12B 在手机上 流畅运行。

4. 微调

Gemma 4 12B vs Gemma 3 12B(及 vs E4B)

问题回答
gemma 4 12b vs gemma 3 12bGemma 4 在 12B 级别新增音频、无编码器融合、256K 上下文、原生 system 角色、思维 + 工具模板、Apache 2.0。Gemma 3 使用独立编码器和旧版 Gemma 许可条款。
gemma 4 e4b vs gemma 3 12bE4B 是约 4.5B 有效参数的手机级模型,带编码器;12B Unified 面向笔记本,编程和智能体分数更强。
vs Qwen 3.5 9B(本地编程)社区在 16 GB 环境下更倾向 Qwen 用于 Pi 风格编程;Gemma 在多模态 + 翻译广度上胜出,见多个 HN 讨论。建议都测试。
vs Gemma 4 31B / 26B A4B如果内存充足,使用更大的 Gemma 4;12B 是 16 GB 甜蜜点

Gemma 4 12B 本地部署(2026 年 6 月)

选择以下一条路径。默认检查点:google/gemma-4-12B-it,除非你自行托管基础模型。

路径 A:Ollama(对大多数人最快)

当你想一条命令搞定 gemma 4 12b ollama 时最佳。

ollama pull gemma4:12b
ollama run gemma4:12b

Ollama library page for gemma4:12b showing Q4_K_M size and vision tag

Ollama `gemma4:12b` 标签(约 7.6 GB Q4_K_M)。截图来自 ollama.com,捕获于 2026 年 6 月 5 日。磁盘大小和标签可能变化。
标签磁盘上下文模态(Ollama 页面)
gemma4:12b约 7.6 GB256K文本、图像
gemma4:12b-it-q8_0约 13 GB256K文本、图像
gemma4:12b-mlx约 10 GB128K仅文本(Mac)

采样参数(厂商 readme): temperature 1.0,top_p 0.95,top_k 64

Ollama 中的思维模式: 在系统提示词开头放置 <|think|>

视觉提示顺序: 图像在文本之前。

12B 音频: 截至 6 月 5 日,Ollama 的 12b 标签不支持音频。使用路径 B 或 D 获取音频支持,或在 Ollama 中使用 gemma4:e4b 获取较小的支持音频构建。

路径 B:llama.cpp + Unsloth GGUF(可控 + 视觉)

当你关注 gemma 4 12b unsloth 量化质量时最佳。Unsloth 现在同时提供 QAT GGUF 和原始量化版本。

  1. unsloth/gemma-4-12b-it-GGUF 或 QAT 变体 unsloth/gemma-4-12B-it-qat-GGUF 下载。
  2. 获取 mmproj-BF16.gguf(约 175 MB)用于视觉。
  3. 推荐量化:UD-Q4_K_XL(约 7.37 GB),根据 Unsloth KL 基准测试。
./llama-server \
  --model gemma-4-12b-it-UD-Q4_K_XL.gguf \
  --mmproj mmproj-BF16.gguf \
  --temp 1.0 --top-p 0.95 --top-k 64 \
  --port 8001 \
  --chat-template-kwargs '{"enable_thinking":false}'

GGUF 大小参考(12B IT,仅权重):

量化约大小
UD-IQ3_XXS4.6 GB
Q4_K_M7.1 GB
UD-Q4_K_XL7.4 GB
Q5_K_M8.4 GB
Q8_012.7 GB
BF1623.8 GB

路径 C:Mac 上的 MLX(gemma 4 12b on mac

资源约大小备注
mlx-community/gemma-4-12B-it-4bit约 11 GB支持视觉的 MLX
ollama run gemma4:12b-mlx约 10 GB仅文本,128K

Unsloth 提供了 MLX 聊天安装脚本:

curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/scripts/install_gemma4_mlx.sh | sh
source ~/.unsloth/unsloth_gemma4_mlx/bin/activate
python -m mlx_vlm.chat --model mlx-community/gemma-4-12B-it-4bit

M2/M3 16 GB: 可运行 Q4 级 12B,上下文适中。M2 8 GB: 建议使用 gemma4:e4b 或更高压缩量化。

路径 D:Transformers(完整多模态 + 音频)

当你需要音频 URL、视频帧和 enable_thinking官方模板 时最佳。

pip install -U "transformers>=5.10.1" torch accelerate torchvision librosa
from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID, dtype="auto", device_map="auto"
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Summarize this repo layout in five bullets."},
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False,
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=1024)

图像: 在文本前放置 {"type": "image", "url": "..."}音频: 在指令文本后放置 {"type": "audio", "audio": "..."}(按模型卡要求)。

路径 E:LiteRT-LM(gemma 4 12b litertlm

Google 提供的 OpenAI 兼容本地 API 和 Mac 智能体工作流路径:

litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve

2026 年智能体 指向 http://localhost:9379/v1(请在你的构建中确认端口):

智能体配置方式
OpenCodebaseURL → LiteRT-LM 或 http://localhost:11434/v1(Ollama)
Codex CLI[model_providers.local] 使用 ollama 或自定义 base_url
Crushcrush.json 中的 OpenAI 兼容 base_url
Pi~/.pi/agent/models.jsonhttp://localhost:11434/v1

不原生支持本地: Claude CodeCursor(仅 BYOK 云 API)、AntigravityAntigravity CLI(云模型;取代已弃用的 Gemini CLI)。

路径 F:vLLM(生产 GPU)

使用 vLLM Gemma 4 12B 配方nightly / gemma4-unified 镜像。BF16 舒适推理需 40 GB+ 显存;显存较低时使用 QAT 压缩张量检查点 google/gemma-4-12B-it-qat-w4a16-ct(152k+ 下载)。SGLang 也支持 QAT 检查点用于高效推理。

vllm serve google/gemma-4-12B-it \
  --max-model-len 16384 \
  --enable-auto-tool-choice \
  --reasoning-parser gemma4 \
  --tool-call-parser gemma4 \
  --limit-mm-per-prompt '{"image": 4, "audio": 1}'

显存与内存规划

Google 的仅权重表(请在你的量化版本上实际验证):

精度权重内存
Q4_0(QAT)约 6.7 GB
8-bit约 13.4 GB
BF16约 26.7 GB

实际规则: 根据上下文长度额外加 2–8+ GB 用于 KV 缓存。Gemma 模型大词表在 32K 上下文时可能远超权重大小(Ollama 社区报告)。

硬件建议量化实际上下文
8 GB 显卡Q3 / UD-IQ3_XXS4K–8K
12 GB 显卡Q4_K_M8K–16K
16 GB 显卡 / 内存Ollama gemma4:12b16K–32K
24 GB 显卡Q8_0 或 Q5_K_M32K–64K
40 GB+vLLM BF1632K+(谨慎提升)

KV 缓存提示(Ollama): 如果上下文导致显存飙升,尝试 OLLAMA_KV_CACHE_TYPE=q8_0

Gemma 4 QAT(量化感知训练)—— 2026 年 6 月 5 日

12B 发布两天后,Google 为每个 Gemma 4 尺寸发布了 QAT 检查点。QAT 不是在训练后量化(PTQ),而是在训练过程中模拟量化。结果:压缩权重比标准 PTQ 量化保留更多的原始模型质量。

12B 现在有三个新的 Hugging Face 仓库:

仓库格式约下载量(6 月 5 日)用途
google/gemma-4-12B-it-qat-q4_0-ggufGGUF Q4_052k+llama.cpp、Ollama 导入
google/gemma-4-12B-it-qat-w4a16-ct压缩张量152k+vLLM、SGLang
google/gemma-4-12B-it-qat-q4_0-unquantized未量化 BF164.5k+自定义转换为其他格式

Unsloth 也在 unsloth/gemma-4-12B-it-qat-GGUF(121k+ 下载)提供 QAT GGUF 及其 UD 量化版本。Google 还发布了 MTP QAT 检查点,让你在量化权重下也能保持多 token 预测加速。

Hugging Face repo page for google/gemma-4-12B-it-qat-q4_0-gguf showing QAT model card

Google 官方 12B QAT Q4_0 GGUF 在 Hugging Face 上。截图来自 huggingface.co,捕获于 2026-06-05。下载量每日变动。

现在该选哪个量化版本: QAT Q4_0 约 6.7 GB,比标准 Q4_K_M 小约 0.4 GB,且 Google 基准测试显示其质量更接近原始 BF16 模型。如果你已经在 Ollama 中拉取了 gemma4:12b 且运行正常,无需立即切换。但对于全新安装或 vLLM 推理,建议从 QAT 检查点开始。你也可以通过 Transformers.js 在浏览器中直接运行 QAT 模型。

思维模式、工具和系统提示词

Gemma 4 新增了原生 system 角色 和结构化的 函数调用 token。用于智能体:

  1. apply_chat_template(..., tools=[...]) 中声明工具。
  2. 计划复杂时启用思维模式:enable_thinking=True
  3. 在下一轮用户对话中,从历史记录中删除思维通道,但在同一智能体回合的工具调用之间除外(思维模式文档)。

多 token 预测(MTP): 可选的草稿器检查点用于加速推理(MTP 概览)。支持的平台包括 Ollama、MLX、vLLM 和 LiteRT-LM。Google 还发布了 MTP QAT 检查点,让你可以同时获得更快解码和保留质量的 QAT 量化。

2026 年编程智能体(如何搭配 Gemma 4 12B)

如果你在 2026 年中期选择智能体,需要分两类:支持本地 OpenAI URL 的终端 CLI,和需要 Anthropic、OpenAI 或 Google 密钥的云 IDE 智能体。Gemma 12B 只适合第一类。

开发者实际在用什么(2026 年 6 月)

OpenCode AI coding agent homepage on opencode.ai

OpenCode 终端智能体 UI。截图来自 opencode.ai,捕获于 2026 年 6 月 5 日。配合 Ollama `baseURL` 使用本地 Gemma。
智能体类型支持本地 Gemma 4 12B?典型角色
Claude Code终端 + IDE + 桌面否(云端 Anthropic;仅网关)日常智能体工作、MCP、子智能体
Codex CLI终端(OpenAI)是。 原生 ollama / lmstudio providercodex exec、工作树、自动化
OpenCode开源终端 + 桌面是。 Ollama + 任何 OpenAI 兼容 URL免费/开源多 provider 智能体
Crush终端(Charm)是。 配置中的 base_urlTUI 编程智能体、MCP、LSP 感知编辑
CursorAI IDE + CLI否(仅 BYOK 云密钥)IDE Agent、Cloud Agent 切换
Antigravity + CLIGoogle IDE + 终端否(云模型)消费者版 Gemini CLI 迁移到 Antigravity CLI(Google 博客);企业版 Gemini CLI 继续运行
GitHub Copilot 云智能体云 PR 智能体GitHub 基础设施上的仓库级任务
Pi轻量框架是。 models.json高级用户、扩展、本地控制
OpenClaw消息编排器通过后端接入从聊天分发到 Codex/Cursor/Claude

Google 发布博客仍提及较旧的 OpenAI 适配工具。2026 年 6 月的讨论中,本地接入通常是 OpenCodeCodex CLICrush

推荐技术栈:本地 Gemma + 云端前沿

  1. 运行权重: ollama pull gemma4:12blitert-lm serve
  2. 本地智能体: ollama launch opencode 或 Pi/Codex 指向 http://localhost:11434/v1
  3. 高难度任务: 同一仓库使用 Claude Code(Opus)或 Codex(GPT-5.5 级)云端运行。
  4. Google UI 赛道: AntigravityAntigravity CLI。Google 正在将消费者版 Gemini CLI 迁移到 Antigravity CLI;企业版 Gemini CLI 继续运行。本地 Gemma 留在 Ollama/OpenCode。

OpenCode + Ollama(可直接复制的配置)

{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "ollama": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "Ollama (local)",
      "options": { "baseURL": "http://localhost:11434/v1" },
      "models": {
        "gemma4:12b": { "name": "Gemma 4 12B (local)" }
      }
    }
  }
}

文档:Ollama + OpenCode。在 16 GB 机器上从 8k 到 16k 上下文开始。逐步提高 num_ctx 直到显存报错;64k 对大多数笔记本来说不太现实。

Codex CLI + Ollama(配置示例)

~/.codex/config.toml 中(请对照 高级配置 验证):

[model_providers.local_ollama]
base_url = "http://localhost:11434/v1"

然后为沙盒任务选择 gemma4:12b 作为模型。Codex 是 OpenAI 的智能体 CLI。当你已经在 codex exec 环境中但想使用离线权重时很有用。

Crush + 本地 OpenAI 兼容 API

crush.json 中将 OpenAI 兼容 provider 指向 Ollama 或 LiteRT-LM(参见 Crush README 配置部分)。与 Open WebUI + 本地服务器的配置模式相同。

编程适用性表(Gemma 4 12B 本身)

用例适用度
通过 OpenCode/Crush 离线重构Q4 + 8K–16K 上下文效果良好
与 Claude Code/Codex 云端使用同一仓库混合模式: 本地处理私有文件,云端用于发布
工具调用智能体厂商 Tau2 分数强;在 OpenCode 中测试 JSON schema
仓库级 128K 推理理论可行;在 16 GB 上注意显存
Antigravity / Cursor 默认使用 云端 模型;Gemma 是平行的本地赛道

API 和云端路由(gemma 4 12b api

路由12B 状态(2026 年 6 月 5 日)
Hugging Face Inference / Endpointsgoogle/gemma-4-12B-it
OpenRouter google/gemma-4-12b-it未列出;如需托管 Gemma 4 请暂用 google/gemma-4-31b-it
Google AI Studio / Gemini API系列文档侧重 26B A4B 和 31B。在 Studio 中查看 12B 可用性
Vertex Model Garden生产级 Gemma 4 系列
本地 OpenAI 适配litert-lm serve、LM Studio server、llama-server

更多路由模式请参阅我们的 OpenRouter 免费模型(2026) 指南;12B 上线后替换模型 ID。

故障排除

症状可能原因解决方法
中等上下文即 CUDA OOMKV + 视觉 token降低 num_ctx;Q4 量化;减少图像 token
显存远超 7.6 GB嵌入表 + f16 KV限制上下文;OLLAMA_KV_CACHE_TYPE=q8_0
llama.cpp 视觉失败缺少 mmproj添加 mmproj-BF16.gguf
AutoModel 类错误Transformers 版本过旧pip install -U transformers>=5.10.1
Ollama 12b 无音频标签限制使用 Transformers、LiteRT-LM 或 vLLM
关闭思维后出现空思维标签12B 模板问题enable_thinking=False 或后处理中去除
vLLM 找不到模型需要 unified nightly按配方使用 gemma4-unified 容器

谁该使用、关注还是跳过

受众结论
注重隐私的开发者(16 GB 显卡)使用: Ollama 或 UD-Q4_K_XL + mmproj
Mac 上的多模态智能体使用: LiteRT-LM 或 MLX 4-bit
规模化生产 API关注: 在 12B API 上线稳定前,优先使用 31B 托管或 40 GB+ 上的 vLLM
只需最强本地编程关注: 在你的提示词上与 Qwen 3.5 9B 对比测试
需要商业音频权利保证用于广告跳过 客户项目,直到法务审查完许可条款

AI Tools Radar 相关阅读

更新日志

  • 2026-06-05: 首次发布。Ollama、MLX、LiteRT-LM 本地部署及 2026 年编程智能体(OpenCode、Codex CLI、Crush)配置。消费者版 Gemini CLI 迁移到 Antigravity CLI。
  • 2026-06-08(更新): 新增 Gemma 4 QAT(量化感知训练)检查点——12B 的 Q4_0 GGUF、vLLM 压缩张量和 Unsloth QAT GGUF。MTP QAT 检查点也已可用。

常见问题

10 个问题
什么是 Gemma 4 12B?

Gemma 4 12B Unified 是 Google DeepMind 的无编码器开源模型,约有 119.5 亿参数。它在一个纯解码器 Transformer 中同时处理文本、图像和音频,模型卡标注最高支持 256K 上下文,采用 Apache 2.0 许可证发布。使用指令微调检查点 google/gemma-4-12B-it 进行对话和智能体任务。

本地运行 Gemma 4 12B 需要多少显存?

Q4_K_M GGUF 或 Ollama gemma4:12b 构建需要约 7.6 GB 用于权重加上视觉投影器,另需额外内存用于 KV 缓存。建议至少 16 GB 统一内存或显存以舒适运行 8K–16K 上下文。8 GB 显卡只能在短上下文下运行激进的 Q3 量化。

Ollama 是否支持 Gemma 4 12B?

是的。运行 ollama pull gemma4:12b 即可获取 7.6 GB 的 Q4_K_M 构建,支持文本和图像输入,标称 256K 上下文。Ollama 的 12b 标签目前未列出音频支持;使用 Transformers、LiteRT-LM 或 vLLM nightly 版本在本地实现 12B 原生音频。

Gemma 4 12B 适合编程吗?

它在 LiveCodeBench v6 和 Codeforces ELO 等厂商编程基准测试中表现不错(相对 Gemma 3)。早期社区测试显示在 12 GB 显卡上约 5 tok/s 的速度可以进行本地编程,但许多开发者仍然更偏好 Qwen 3.5 9B 或更大的 Gemma 4 尺寸用于智能体循环。建议先用你自己的代码库提示词测试后再决定是否切换。

如何启用 Gemma 4 12B 的思维模式?

在系统提示词开头添加 think 标记,或在 Transformers apply_chat_template 中传入 enable_thinking=True。模型会在最终回答前输出一个思维通道。在下一轮对话时从历史记录中去除思维块,但在同一智能体回合的多步工具调用之间除外。

Gemma 4 12B vs Gemma 3 12B:该下载哪个?

如果你需要该尺寸的原生音频支持、无编码器的多模态融合、Apache 2.0 许可证、256K 上下文,以及 Google 公布表格中更强的数学和编程分数,选择 Gemma 4 12B。只有当你已经调优了流水线且暂时不需要音频或新聊天模板时,才继续使用 Gemma 3 12B。

可以在 Mac 上使用 Gemma 4 12B 吗?

可以。Ollama 提供 gemma4:12b-mlx 用于 Apple Silicon 上的文本推理(约 10 GB),或使用 mlx-community/gemma-4-12B-it-4bit 获得支持视觉的 MLX 版本(约 11 GB)。Google 的 AI Edge Gallery 和 LiteRT-LM 也面向 Mac 笔记本,提供 OpenAI 兼容的本地服务。

Gemma 4 12B 在 OpenRouter 上可用吗?

截至 2026 年 6 月 5 日,OpenRouter 列出了 google/gemma-4-31b-it 及免费变体,但没有 12B 的标识。如需 12B 级别的托管 API 访问,请查看 Google AI Studio 或 Vertex Model Garden。对于本地智能体,运行 Ollama 或 litert-lm serve 并将 OpenCode、Codex CLI、Crush 或 Pi 指向 OpenAI 兼容的 base URL。

2026 年哪些 AI 编程智能体支持本地 Gemma 4 12B?

OpenCode、Pi、Codex CLI 和 Crush 支持自定义 base URL 或原生 Ollama provider。Claude Code、Cursor、Google Antigravity 和 GitHub Copilot 云智能体需要云模型才能使用完整的智能体功能。消费者版 Gemini CLI 正在迁移到 Antigravity CLI;企业版 Gemini CLI 继续运行。本地使用 Gemma 搭配 OpenCode 或 Crush 作为终端智能体。在正式生产代码库上继续使用 Claude Code 配 Anthropic、Codex 配 OpenAI。

什么是 Gemma 4 QAT?12B 的检查点在哪里?

QAT(量化感知训练)检查点于 2026 年 6 月 5 日发布,在训练过程中模拟量化,因此压缩权重比标准训练后量化保留更多质量。12B 版本可获取 Q4_0 GGUF(google/gemma-4-12B-it-qat-q4_0-gguf,约 6.7 GB)、vLLM 压缩张量版(google/gemma-4-12B-it-qat-w4a16-ct),或 Unsloth QAT GGUF(unsloth/gemma-4-12B-it-qat-GGUF)。MTP QAT 检查点也已可用。

更多模型

查看全部