GLM-5.1 我是真有點看不透!

周五晚上發了一個更新公告,什麼細節都沒說,就幾個字。
沒有基準數據,沒有升級特性介紹,連張圖片都沒有。
是不是趕著放假隨便一發😄,然後讓我週末加班測試?
本來我真的不想測了,但它什麼都不說,我反而好奇。
是因為沒啥亮點所以不說,還是實力超群,不需要說?
過了一個小時,我刷 X,終於刷到了一點東西:

配圖是一個程式能力評測(Coding Evaluation)的對比圖,測評框架用的是 Claude Code as the harness(即以 Claude Code 作為測評工具 / harness)。
評測結果:
關鍵解讀:
我的小助手說:
值得注意的是,這個 benchmark 是智譜自己發布的,且用的是 Claude Code 框架評測,有一定的宣傳性質,實際體驗還需結合你在 JCode 裡的實測數據來判斷。
它這記憶能力好強,居然時刻記得我開發了一個叫 JCode 的專案。
既然我小助手建議我要實際體驗一下才可以,那我就真的得測一測了。
先用我們的 CodingPlanTest 平台做一個簡單的智力測試。
題目是:
<div><div><div></div><span></span></div><div><div> <span>體驗AI程式助理</span></div><div> <span>程式解讀</span></div><div>複製程式碼</div></div></div>
<span>有 5 個人排成一排,每人帽子顏色為紅或藍。他們可以看到前面人的帽子,但看不到自己的。主持人宣布:「至少有一頂紅帽子。」從最後一人開始,每人依次說</span>
<span>「是」或「否」(表示是否知道自己帽子的顏色)。如果第 5 人說「否」,第 4 人說「是」,求所有可能的帽子顏色分布。</span>
結果如下:

GLM-5.1 第一次居然是錯的,後面測試裡兩次是正常的。
GLM-Turbo 錯了兩次,對了一次。
GLM-5 基本上不出錯,遇到一次網路錯誤。
這個測試的結果還是有很大的隨機性,整體感覺是 GLM-5.1 和 GLM-5 出錯機率較低,Turbo 答錯機率稍微高一些。Turbo 應該是在工程化與流程化上做了增強,而削弱了思考強度。
這個問題分不出 GLM-5.1 和 GLM-5 的差別。
既然如此,我們就上 JarvisBench 了。
我們的測試工具就是它圖中提到的 Harness — Claude Code。

簡單說一下這個測試。
這個測試基於一個正在開發中的專案,有 8000 行的上下文,需要修改資料結構、商業邏輯、以及多個頁面。
我提出的需求是:
<div><div><div></div><span>markdown</span></div><div><div> <span>體驗AI程式助理</span></div><div> <span>程式解讀</span></div><div>複製程式碼</div></div></div>
<span>目前群聊接力的時候可以選擇平台管理中的模型,也可以對這些模型預先配置系統提示詞和角色提示詞,這樣已經可以透過系統提示詞來個性化聊天了。但是透過平台設定裡面綁定角色比較有侷限性——這樣一個平台就只能是一個角色。</span>
<span></span>
<span>我希望換另外一種設定:<span>在角色裡選模型</span>,然後群聊開始的時候,我可以直接選平台,也可以直接選角色。角色的管理還是在系統設定的「角色管理」中進行。</span>
<span></span>
<span>為了實現上面的需求,角色功能需要升級:</span>
<span></span>
<span><span>-</span> 除了可以設定提示詞之外,還得能<span>選擇平台和模型</span></span>
<span><span>-</span> 另外還能<span>設定頭像</span></span>
<span><span>-</span> 如果設定了頭像,群聊的時候就顯示自訂頭像;如果沒有設定頭像,就用對應模型平台的 logo 作為頭像</span>
<span></span>
<span>我的需求大概是這樣。說說你對這個需求的理解,不急著寫程式碼</span>
它的理解是:

這一部分好像和 GLM-5 比較像,理解並提出問題的能力不是很強,提問整體比較含糊,沒有抓到很多重點,也沒有考慮隱藏考點。
這是他的計畫執行列表:

中間還是出了一些波折。
有些是開發過程的錯誤:

有些是呼叫介面的錯誤:

最終花費的時間是 30 分鐘左右。
最終的結果嘛,崩了!
儀表板預設數據都沒了!

所有其他功能全部 404:

這個表現驚掉下巴了。有失水準。
由於我實在無法接受這樣的結果,特地重新跑了一次。
重新跑了一次之後,功能基本正常:

只是預設頭像的邏輯還有一點問題,正常來說,如果我沒有設定頭像,它就應該像是平台的預設頭像。這一點沒有做到。
然後隔了一天,我重新執行了上一次失敗的例子。
沒想到都正常了……之前出錯可能是快取的問題。

其實第一個測試,做得更加完整。它就沒有頭像的問題。

完美實現了頭像的邏輯,上傳了就直接顯示上傳的頭像,沒有上傳過就用平台頭像替代。
然後,相比 GLM-5 的測試,最近 GLM-5.1 和 Turbo 在設計群聊介面都沒有出現大問題。當時 GLM-5 出現的問題是邏輯正常,但是 UI 顯示的名稱不對,應該顯示角色,卻顯示了平台。
再來看看建立群聊的介面:

GLM-5.1 和 Turbo 都保留了系統提示詞,這是一個進步。
編輯平台的介面:

GLM 的一次測試和 GLM-5.1 的兩次測試,全部沒有考慮刪除冗餘的問題。Turbo 第一次測試就考慮到了。
總的來說,最近這幾次的測試,好像都沒有什麼大問題了,就是有一點點小細節上的問題。
GLM-5.1 相比 GLM 到底升級了什麼,這個確實很難分辨。
我的直觀感受是,它們在詢問關鍵點的時候,還是一樣地含糊不清。但是在執行的時候,又還可以。
從我這幾次測試的例子來看,是有完善的。但是由於樣本有限,不能 100% 確定是升級的功勞。
Turbo 的話,解讀問題和規劃階段明顯更加完善,所以考慮到了隱藏考點,升級的時候,優化了冗餘的問題。雖然最後上傳頭像有一個小 bug,但整體問題不大。
我的建議是:
大概就是這樣,要測小版本的細微差距非常困難。
相比其他國產模型在複雜開發中是要強很多的。
Turbo 的測試請看這篇:
GLM-5.1 的測試請看這篇:
測試平台的開源地址: