小編精選 - 技術文章翻譯 · 04月12日

Google 開源大模型 Gemma4 怎麼選？要在本地執行需要哪些條件？

Google 開源大模型 Gemma4 怎麼選，本地跑的話需要什麼條件？

我覺得這 Gemma 4 並沒有表現得特別優秀，但它**大概率是這個系列到目前為止，發布最全面和友好的一次了，雖然也是很快就被安全破解的一次**。

因為 Gemma 4 這次發布的 E2B、E4B、26B A4B MoE 和 31B Dense，可以說是覆蓋小杯到超大杯全部範圍，而最重要的是，這次改用了 Apache 2.0 授權，這可是首次採用 Apache 2.0，最大的驚喜。

但是真要評價，核心還是在小模型，E2B/E4B 在結構化輸出、對話、輕量 agent 場景裡目前回饋都還不錯，比如在 6GB 顯存上，E2B 可以做到比 Qwen 更快，個人感覺體驗也更好一點，結構化輸出也不錯。

比如官方數據上：E2B 在部分設備上可以做到 1.5GB 記憶體運行，處理 4000 輸入 token、跨 2 個 skill 的 agent 流程可在 3 秒內完成等，同時 Google AI Edge Gallery 直接在 iOS 和 Android 上提供了 Gemma 4 支援，這個體驗就很不錯。

而在 26B 和 31B 上，如果單看某些排行榜就很有趣了，26B 可以作為 gemini-3.1-flash-lite 的平替，而 31B 可以平替 Gemini 2.5 pro：

當然，我個人覺得 26B A4B 整體的速度和品質平衡會更實用，因為 26B A4B 這個形態相對比較平衡，總參數量 25.2B、推理時只激活 3.8B，比 31B Dense 更快、但品質卻相對接近，例如在多個公開 benchmark 上，Gemma 31B 相比 26B 表現接近：

在 Arena AI text leaderboard 上，31B 的 Elo 高出約 10 分左右
在數學基準（如 AIME）中，提升約 1%
在程式碼生成（LiveCodeBench）上，提升約 2%～3%
在高難推理（GPQA Diamond）中，提升約 1%～2%

可以看出來，26B A4B 靠相對少量的激活參數，就讓效果逼近 31B Dense 的表現，可以說是最有性價比的。

也有人測試 26B A4B 和 Qwen 3.5 35B A3B 速度接近，比如 Gemma 26B A4B 在 Mac Studio M1 Ultra 上的速度和 Qwen 3.5 35B A3B 相同（在 20k 上下文長度下，大約 1000 prefill，60 tok/s，使用 llama.cpp）

约 ~1000 prefill / ~60 tok/s @ 20k context，而在獨立 agentic coding 的比較裡，26B A4B 的生成速度約 ~135 tok/s，和 Qwen 3.5 35B A3B 的 ~136 tok/s 接近，但主觀評價上看，26B A4B 程式碼品質評價偏弱。

這也是我個人相對不推薦 31B Dense 的原因，生成還是慢了不少，長時間思考卻又不能穩定，吃上下文記憶也比較高，相對來說速度和穩定還不如 Qwen 3.5-27B，幻覺（hallucination）相對更大。

另外，這裡就不得不提 Gemma4 一開始存在的問題：上下文佔用資源過多，剛出來那會沒辦法像 Qwens 那樣載入更長的上下文，LM Studio 中的快取量化會有問題，導致模型不穩定並經常陷入循環。

後來 LM Studio 更新（llama.cpp 2.11.0）修復了，可以實現 32K 上下文（26B 4AB Q5_K_M）。

當然，最重要的是，Gemma-4-31B 模型才發布沒一會就有了越獄版本，安全限制被完全移除，而且 Gemma-4-31B-JANG_4M-CRACK 這個破解模型已經公開發佈在 Hugging Face。

根據 Apache 2.0 授權來看，這個破解模型相對還是合法？畢竟 2.0 授權允許修改與再散布？

最後，目前大多數好評還是集中在小模型上，只能說這個領域要有一個可用的真的不容易，特別是 E4B 在結構化抽取上的可用性，比如有使用者把 E4B fine-tune 到監管文件的 JSON 抽取任務上，基礎模型在零微調下就能做到 100% JSON validity、75% 的文件類型準確率，微調後提升到 94%，幻覺義務項從 1.25/doc 降到 0.59/doc，這個底子還是可以的。