來看看 GLM5.1 到底升級了什麼!

GLM-5.1 我是真有點看不透!

周五晚上發了一個更新公告,什麼細節都沒說,就幾個字。

沒有基準數據,沒有升級特性介紹,連張圖片都沒有。

是不是趕著放假隨便一發😄,然後讓我週末加班測試?

本來我真的不想測了,但它什麼都不說,我反而好奇。

是因為沒啥亮點所以不說,還是實力超群,不需要說?

過了一個小時,我刷 X,終於刷到了一點東西:

配圖是一個程式能力評測(Coding Evaluation)的對比圖,測評框架用的是 Claude Code as the harness(即以 Claude Code 作為測評工具 / harness)。

評測結果:

  • 模型得分:
    • Claude Opus 4.6:47.9
    • GLM-5.1:45.3
    • GLM-5:35.4

關鍵解讀:

  • GLM-5.1 相比上一代 GLM-5 提升巨大(+9.9分,提升約 28%)
  • GLM-5.1 以 45.3 分非常接近 Claude Opus 4.6 的 47.9 分,差距縮小到約 5%
  • 智譜用這張圖的潛台詞是:GLM-5.1 編碼能力已經逼近頂級閉源模型

我的小助手說:

值得注意的是,這個 benchmark 是智譜自己發布的,且用的是 Claude Code 框架評測,有一定的宣傳性質,實際體驗還需結合你在 JCode 裡的實測數據來判斷。

它這記憶能力好強,居然時刻記得我開發了一個叫 JCode 的專案。

既然我小助手建議我要實際體驗一下才可以,那我就真的得測一測了。

先用我們的 CodingPlanTest 平台做一個簡單的智力測試。

題目是:

<div><div><div></div><span></span></div><div><div> <span>體驗AI程式助理</span></div><div> <span>程式解讀</span></div><div>複製程式碼</div></div></div>

<span>有 5 個人排成一排,每人帽子顏色為紅或藍。他們可以看到前面人的帽子,但看不到自己的。主持人宣布:「至少有一頂紅帽子。」從最後一人開始,每人依次說</span>
<span>「是」或「否」(表示是否知道自己帽子的顏色)。如果第 5 人說「否」,第 4 人說「是」,求所有可能的帽子顏色分布。</span>

結果如下:

GLM-5.1 第一次居然是錯的,後面測試裡兩次是正常的。

GLM-Turbo 錯了兩次,對了一次。

GLM-5 基本上不出錯,遇到一次網路錯誤。

這個測試的結果還是有很大的隨機性,整體感覺是 GLM-5.1 和 GLM-5 出錯機率較低,Turbo 答錯機率稍微高一些。Turbo 應該是在工程化與流程化上做了增強,而削弱了思考強度。

這個問題分不出 GLM-5.1 和 GLM-5 的差別。

既然如此,我們就上 JarvisBench 了。

我們的測試工具就是它圖中提到的 Harness — Claude Code。

簡單說一下這個測試。

這個測試基於一個正在開發中的專案,有 8000 行的上下文,需要修改資料結構、商業邏輯、以及多個頁面。

我提出的需求是:

<div><div><div></div><span>markdown</span></div><div><div> <span>體驗AI程式助理</span></div><div> <span>程式解讀</span></div><div>複製程式碼</div></div></div>

<span>目前群聊接力的時候可以選擇平台管理中的模型,也可以對這些模型預先配置系統提示詞和角色提示詞,這樣已經可以透過系統提示詞來個性化聊天了。但是透過平台設定裡面綁定角色比較有侷限性——這樣一個平台就只能是一個角色。</span>
<span>​</span>
<span>我希望換另外一種設定:<span>在角色裡選模型</span>,然後群聊開始的時候,我可以直接選平台,也可以直接選角色。角色的管理還是在系統設定的「角色管理」中進行。</span>
<span>​</span>
<span>為了實現上面的需求,角色功能需要升級:</span>
<span>​</span>
<span><span>-</span> 除了可以設定提示詞之外,還得能<span>選擇平台和模型</span></span>
<span><span>-</span> 另外還能<span>設定頭像</span></span>
<span><span>-</span> 如果設定了頭像,群聊的時候就顯示自訂頭像;如果沒有設定頭像,就用對應模型平台的 logo 作為頭像</span>
<span>​</span>
<span>我的需求大概是這樣。說說你對這個需求的理解,不急著寫程式碼</span>

它的理解是:

這一部分好像和 GLM-5 比較像,理解並提出問題的能力不是很強,提問整體比較含糊,沒有抓到很多重點,也沒有考慮隱藏考點。

這是他的計畫執行列表:

中間還是出了一些波折。

有些是開發過程的錯誤:

有些是呼叫介面的錯誤:

最終花費的時間是 30 分鐘左右。

最終的結果嘛,崩了!

儀表板預設數據都沒了!

所有其他功能全部 404:

這個表現驚掉下巴了。有失水準。

由於我實在無法接受這樣的結果,特地重新跑了一次。

重新跑了一次之後,功能基本正常:

只是預設頭像的邏輯還有一點問題,正常來說,如果我沒有設定頭像,它就應該像是平台的預設頭像。這一點沒有做到。

然後隔了一天,我重新執行了上一次失敗的例子。

沒想到都正常了……之前出錯可能是快取的問題。

其實第一個測試,做得更加完整。它就沒有頭像的問題。

完美實現了頭像的邏輯,上傳了就直接顯示上傳的頭像,沒有上傳過就用平台頭像替代。

然後,相比 GLM-5 的測試,最近 GLM-5.1 和 Turbo 在設計群聊介面都沒有出現大問題。當時 GLM-5 出現的問題是邏輯正常,但是 UI 顯示的名稱不對,應該顯示角色,卻顯示了平台。

再來看看建立群聊的介面:

GLM-5.1 和 Turbo 都保留了系統提示詞,這是一個進步。

編輯平台的介面:

GLM 的一次測試和 GLM-5.1 的兩次測試,全部沒有考慮刪除冗餘的問題。Turbo 第一次測試就考慮到了。

總的來說,最近這幾次的測試,好像都沒有什麼大問題了,就是有一點點小細節上的問題。

GLM-5.1 相比 GLM 到底升級了什麼,這個確實很難分辨。

我的直觀感受是,它們在詢問關鍵點的時候,還是一樣地含糊不清。但是在執行的時候,又還可以。

從我這幾次測試的例子來看,是有完善的。但是由於樣本有限,不能 100% 確定是升級的功勞。

Turbo 的話,解讀問題和規劃階段明顯更加完善,所以考慮到了隱藏考點,升級的時候,優化了冗餘的問題。雖然最後上傳頭像有一個小 bug,但整體問題不大。

我的建議是:

  • 大部分問題,可以首選 Turbo,多快好省!
  • 如果遇到智力上限的時候,可以考慮切換到 GLM-5.1!

大概就是這樣,要測小版本的細微差距非常困難。

相比其他國產模型在複雜開發中是要強很多的。

Turbo 的測試請看這篇:

GLM-5.1 的測試請看這篇:

測試平台的開源地址:

https://github.com/JarvisPMS/codingplan


原文出處:https://juejin.cn/post/7621905728757678126


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝9   💬10   ❤️3
530
🥈
我愛JS
📝2   💬6   ❤️2
140
🥉
💬1  
4
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
📢 贊助商廣告 · 我要刊登