Google 開源大模型 Gemma4 怎麼選,本地跑的話需要什麼條件?

我覺得這 Gemma 4 並沒有表現得特別優秀,但它**大概率是這個系列到目前為止,發布最全面和友好的一次了,雖然也是很快就被安全破解的一次**。

因為 Gemma 4 這次發布的 E2B、E4B、26B A4B MoE 和 31B Dense,可以說是覆蓋小杯到超大杯全部範圍,而最重要的是,這次改用了 Apache 2.0 授權,這可是首次採用 Apache 2.0,最大的驚喜

但是真要評價,核心還是在小模型,E2B/E4B 在結構化輸出、對話、輕量 agent 場景裡目前回饋都還不錯,比如在 6GB 顯存上,E2B 可以做到比 Qwen 更快,個人感覺體驗也更好一點,結構化輸出也不錯。

比如官方數據上:E2B 在部分設備上可以做到 1.5GB 記憶體運行,處理 4000 輸入 token、跨 2 個 skill 的 agent 流程可在 3 秒內完成等,同時 Google AI Edge Gallery 直接在 iOS 和 Android 上提供了 Gemma 4 支援,這個體驗就很不錯。

而在 26B 和 31B 上,如果單看某些排行榜就很有趣了,26B 可以作為 gemini-3.1-flash-lite 的平替,而 31B 可以平替 Gemini 2.5 pro

當然,我個人覺得 26B A4B 整體的速度和品質平衡會更實用,因為 26B A4B 這個形態相對比較平衡,總參數量 25.2B、推理時只激活 3.8B,比 31B Dense 更快、但品質卻相對接近,例如在多個公開 benchmark 上,Gemma 31B 相比 26B 表現接近:

  • 在 Arena AI text leaderboard 上,31B 的 Elo 高出約 10 分左右
  • 在數學基準(如 AIME)中,提升約 1%
  • 在程式碼生成(LiveCodeBench)上,提升約 2%~3%
  • 在高難推理(GPQA Diamond)中,提升約 1%~2%

可以看出來,26B A4B 靠相對少量的激活參數,就讓效果逼近 31B Dense 的表現,可以說是最有性價比的。

也有人測試 26B A4B 和 Qwen 3.5 35B A3B 速度接近,比如 Gemma 26B A4B 在 Mac Studio M1 Ultra 上的速度和 Qwen 3.5 35B A3B 相同(在 20k 上下文長度下,大約 1000 prefill,60 tok/s,使用 llama.cpp)

约 ~1000 prefill / ~60 tok/s @ 20k context,而在獨立 agentic coding 的比較裡,26B A4B 的生成速度約 ~135 tok/s,和 Qwen 3.5 35B A3B 的 ~136 tok/s 接近,但主觀評價上看,26B A4B 程式碼品質評價偏弱。

這也是我個人相對不推薦 31B Dense 的原因,生成還是慢了不少,長時間思考卻又不能穩定,吃上下文記憶也比較高,相對來說速度和穩定還不如 Qwen 3.5-27B,幻覺(hallucination)相對更大。

另外,這裡就不得不提 Gemma4 一開始存在的問題:上下文佔用資源過多,剛出來那會沒辦法像 Qwens 那樣載入更長的上下文,LM Studio 中的快取量化會有問題,導致模型不穩定並經常陷入循環。

後來 LM Studio 更新(llama.cpp 2.11.0)修復了,可以實現 32K 上下文(26B 4AB Q5_K_M)。

當然,最重要的是,Gemma-4-31B 模型才發布沒一會就有了越獄版本,安全限制被完全移除,而且 Gemma-4-31B-JANG_4M-CRACK 這個破解模型已經公開發佈在 Hugging Face。

根據 Apache 2.0 授權來看,這個破解模型相對還是合法?畢竟 2.0 授權允許修改與再散布?

最後,目前大多數好評還是集中在小模型上,只能說這個領域要有一個可用的真的不容易,特別是 E4B 在結構化抽取上的可用性,比如有使用者把 E4B fine-tune 到監管文件的 JSON 抽取任務上,基礎模型在零微調下就能做到 100% JSON validity、75% 的文件類型準確率,微調後提升到 94%,幻覺義務項從 1.25/doc 降到 0.59/doc,這個底子還是可以的。

github.com/spriyads-va…

而對於 31B Dense 我個人覺得是速度、上下文佔用、推理穩定性問題比較多,並沒有像 benchmark 宣傳的那麼有優勢,感覺更像一個可以證明模型上限的版本,而不是實際性價比的版本,目前 31B 的場景上還是 Qwen 更貼合現實。

至少在 Mac mini M4 Pro 64GB 上跑 26B 可以日常使用,31B 的體驗至少要 M3 Ultra,就算是 RTX 4090 24GB 也需要基於量化,上下文空間也不寬裕。

另外有人基於標準 llama-bench 基準測試和 OpenCode 進行單次編碼評估,在 24GB 的 RTX 4090 上進行評估:

Max Context 是指在可接受的生成速度下,VRAM 能夠容納的最大上下文大小。

所以目前玩玩的話,E2B/E4B 值得試試,門檻也很低,特別是 Gemini Nano via AI Core,走 Android 系統 AI Core(需要 Pixel),有 NPU / DSP 支援,效能更好:

而 26B MoE 本地速度快、屬於這次的甜點區,性價比和可玩性在裡面是最值得推薦的,而 31B 版本相對見仁見智了,因為實際上現在測試的碎片化太嚴重了:


原文出處:https://juejin.cn/post/7625992318693015594


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝5   💬6   ❤️3
425
🥈
我愛JS
📝2   💬7   ❤️2
206
🥉
💬1  
4
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
📢 贊助商廣告 · 我要刊登