小編精選 - 技術文章翻譯 · 04月01日

來看看 GLM5.1 到底升級了什麼！

GLM-5.1 我是真有點看不透！

周五晚上發了一個更新公告，什麼細節都沒說，就幾個字。

沒有基準數據，沒有升級特性介紹，連張圖片都沒有。

是不是趕著放假隨便一發😄，然後讓我週末加班測試？

本來我真的不想測了，但它什麼都不說，我反而好奇。

是因為沒啥亮點所以不說，還是實力超群，不需要說？

過了一個小時，我刷 X，終於刷到了一點東西：

配圖是一個程式能力評測（Coding Evaluation）的對比圖，測評框架用的是 Claude Code as the harness（即以 Claude Code 作為測評工具 / harness）。

評測結果：

模型得分：
- Claude Opus 4.6：47.9
- GLM-5.1：45.3
- GLM-5：35.4

關鍵解讀：

GLM-5.1 相比上一代 GLM-5 提升巨大（+9.9分，提升約 28%）
GLM-5.1 以 45.3 分非常接近 Claude Opus 4.6 的 47.9 分，差距縮小到約 5%
智譜用這張圖的潛台詞是：GLM-5.1 編碼能力已經逼近頂級閉源模型

我的小助手說：

值得注意的是，這個 benchmark 是智譜自己發布的，且用的是 Claude Code 框架評測，有一定的宣傳性質，實際體驗還需結合你在 JCode 裡的實測數據來判斷。

它這記憶能力好強，居然時刻記得我開發了一個叫 JCode 的專案。

既然我小助手建議我要實際體驗一下才可以，那我就真的得測一測了。

先用我們的 CodingPlanTest 平台做一個簡單的智力測試。

題目是：

<div><div><div></div><span></span></div><div><div> <span>體驗AI程式助理</span></div><div> <span>程式解讀</span></div><div>複製程式碼</div></div></div>

有 5 個人排成一排，每人帽子顏色為紅或藍。他們可以看到前面人的帽子，但看不到自己的。主持人宣布：「至少有一頂紅帽子。」從最後一人開始，每人依次說
「是」或「否」（表示是否知道自己帽子的顏色）。如果第 5 人說「否」，第 4 人說「是」，求所有可能的帽子顏色分布。

結果如下：

GLM-5.1 第一次居然是錯的，後面測試裡兩次是正常的。

GLM-Turbo 錯了兩次，對了一次。

GLM-5 基本上不出錯，遇到一次網路錯誤。

這個測試的結果還是有很大的隨機性，整體感覺是 GLM-5.1 和 GLM-5 出錯機率較低，Turbo 答錯機率稍微高一些。Turbo 應該是在工程化與流程化上做了增強，而削弱了思考強度。

這個問題分不出 GLM-5.1 和 GLM-5 的差別。

既然如此，我們就上 JarvisBench 了。

我們的測試工具就是它圖中提到的 Harness — Claude Code。

簡單說一下這個測試。

這個測試基於一個正在開發中的專案，有 8000 行的上下文，需要修改資料結構、商業邏輯、以及多個頁面。

我提出的需求是：

<div><div><div></div><span>markdown</span></div><div><div> <span>體驗AI程式助理</span></div><div> <span>程式解讀</span></div><div>複製程式碼</div></div></div>

目前群聊接力的時候可以選擇平台管理中的模型，也可以對這些模型預先配置系統提示詞和角色提示詞，這樣已經可以透過系統提示詞來個性化聊天了。但是透過平台設定裡面綁定角色比較有侷限性——這樣一個平台就只能是一個角色。

我希望換另外一種設定：在角色裡選模型，然後群聊開始的時候，我可以直接選平台，也可以直接選角色。角色的管理還是在系統設定的「角色管理」中進行。

為了實現上面的需求，角色功能需要升級：

- 除了可以設定提示詞之外，還得能選擇平台和模型
- 另外還能設定頭像
- 如果設定了頭像，群聊的時候就顯示自訂頭像；如果沒有設定頭像，就用對應模型平台的 logo 作為頭像

我的需求大概是這樣。說說你對這個需求的理解，不急著寫程式碼

它的理解是：