我覺得這 Gemma 4 並沒有表現得特別優秀,但它**大概率是這個系列到目前為止,發布最全面和友好的一次了,雖然也是很快就被安全破解的一次**。
因為 Gemma 4 這次發布的 E2B、E4B、26B A4B MoE 和 31B Dense,可以說是覆蓋小杯到超大杯全部範圍,而最重要的是,這次改用了 Apache 2.0 授權,這可是首次採用 Apache 2.0,最大的驚喜。

但是真要評價,核心還是在小模型,E2B/E4B 在結構化輸出、對話、輕量 agent 場景裡目前回饋都還不錯,比如在 6GB 顯存上,E2B 可以做到比 Qwen 更快,個人感覺體驗也更好一點,結構化輸出也不錯。

比如官方數據上:E2B 在部分設備上可以做到 1.5GB 記憶體運行,處理 4000 輸入 token、跨 2 個 skill 的 agent 流程可在 3 秒內完成等,同時 Google AI Edge Gallery 直接在 iOS 和 Android 上提供了 Gemma 4 支援,這個體驗就很不錯。
而在 26B 和 31B 上,如果單看某些排行榜就很有趣了,26B 可以作為 gemini-3.1-flash-lite 的平替,而 31B 可以平替 Gemini 2.5 pro:

當然,我個人覺得 26B A4B 整體的速度和品質平衡會更實用,因為 26B A4B 這個形態相對比較平衡,總參數量 25.2B、推理時只激活 3.8B,比 31B Dense 更快、但品質卻相對接近,例如在多個公開 benchmark 上,Gemma 31B 相比 26B 表現接近:
可以看出來,26B A4B 靠相對少量的激活參數,就讓效果逼近 31B Dense 的表現,可以說是最有性價比的。
也有人測試 26B A4B 和 Qwen 3.5 35B A3B 速度接近,比如 Gemma 26B A4B 在 Mac Studio M1 Ultra 上的速度和 Qwen 3.5 35B A3B 相同(在 20k 上下文長度下,大約 1000 prefill,60 tok/s,使用 llama.cpp)
约 ~1000 prefill / ~60 tok/s @ 20k context,而在獨立 agentic coding 的比較裡,26B A4B 的生成速度約 ~135 tok/s,和 Qwen 3.5 35B A3B 的 ~136 tok/s 接近,但主觀評價上看,26B A4B 程式碼品質評價偏弱。
這也是我個人相對不推薦 31B Dense 的原因,生成還是慢了不少,長時間思考卻又不能穩定,吃上下文記憶也比較高,相對來說速度和穩定還不如 Qwen 3.5-27B,幻覺(hallucination)相對更大。


另外,這裡就不得不提 Gemma4 一開始存在的問題:上下文佔用資源過多,剛出來那會沒辦法像 Qwens 那樣載入更長的上下文,LM Studio 中的快取量化會有問題,導致模型不穩定並經常陷入循環。
後來 LM Studio 更新(llama.cpp 2.11.0)修復了,可以實現 32K 上下文(26B 4AB Q5_K_M)。
當然,最重要的是,Gemma-4-31B 模型才發布沒一會就有了越獄版本,安全限制被完全移除,而且 Gemma-4-31B-JANG_4M-CRACK 這個破解模型已經公開發佈在 Hugging Face。

根據 Apache 2.0 授權來看,這個破解模型相對還是合法?畢竟 2.0 授權允許修改與再散布?
最後,目前大多數好評還是集中在小模型上,只能說這個領域要有一個可用的真的不容易,特別是 E4B 在結構化抽取上的可用性,比如有使用者把 E4B fine-tune 到監管文件的 JSON 抽取任務上,基礎模型在零微調下就能做到 100% JSON validity、75% 的文件類型準確率,微調後提升到 94%,幻覺義務項從 1.25/doc 降到 0.59/doc,這個底子還是可以的。

而對於 31B Dense 我個人覺得是速度、上下文佔用、推理穩定性問題比較多,並沒有像 benchmark 宣傳的那麼有優勢,感覺更像一個可以證明模型上限的版本,而不是實際性價比的版本,目前 31B 的場景上還是 Qwen 更貼合現實。
至少在 Mac mini M4 Pro 64GB 上跑 26B 可以日常使用,31B 的體驗至少要 M3 Ultra,就算是 RTX 4090 24GB 也需要基於量化,上下文空間也不寬裕。
另外有人基於標準 llama-bench 基準測試和 OpenCode 進行單次編碼評估,在 24GB 的 RTX 4090 上進行評估:

Max Context 是指在可接受的生成速度下,VRAM 能夠容納的最大上下文大小。
所以目前玩玩的話,E2B/E4B 值得試試,門檻也很低,特別是 Gemini Nano via AI Core,走 Android 系統 AI Core(需要 Pixel),有 NPU / DSP 支援,效能更好:

而 26B MoE 本地速度快、屬於這次的甜點區,性價比和可玩性在裡面是最值得推薦的,而 31B 版本相對見仁見智了,因為實際上現在測試的碎片化太嚴重了:
