DeepSeek-V4-Pro 寫程式到底行不行?我拿 GLM-5.1 跟它正面硬碰了一輪

大家好,我是孟健。

DeepSeek-V4-Pro 發佈了,官方說程式能力大幅升級。這種話我聽得多了,每次新模型發佈都這麼說。

但我確實很好奇:V4 在寫程式這件事上,到底有沒有追上 GLM-5.1?

GLM-5.1 是我日常寫程式的主力模型,用了幾個月了,它什麼水平我心裡有數。所以這次我不跑 benchmark,不拼分數,就拿我實際工作中的四個場景,讓兩個模型正面硬剛。

四個場景:原始碼分析、功能實作、大檔案拆分、專案架構分析。

最後再算一筆帳,看看成本誰更划算。

場景一:專案分析,分析 Claude Code 原始碼

前陣子 Claude Code 原始碼外洩,我用 GLM-5.1 完整分析了一遍 Claude Code 原始碼,今天 DeepSeek-V4-Pro 發佈,我同樣也讓它分析一遍原始碼看看。

基本上值得挖掘的功能,都仔細挖掘了一遍,看起來還不錯。

場景二:借鑑 Claude Code 中的程式,從零開始完整實作一個功能

上次我讓 GLM-5.1 分析完 Claude Code 原始碼之後,借鑑了程式中一些有意思的設計和點,重新從零開始完整交付了一個快取管理系統;今天我們同樣也讓 DeepSeek-V4-Pro 試試看,看看能否自主從零開始交付一個完整的專案。

經過一段時間的等待,可以看到 DeepSeek-V4-Pro 直接借鑑 Claude Code 原始碼 幫我實作了 10 個完整的功能模組;由此可見,DeepSeek-V4-Pro 的程式能力確實蠻強的。

場景三:拆檔案,我剛好手上有一個專案,一個檔案程式碼幾千行

下面這個程式檔案有 1000 多行,我們來嘗試一下分別讓 GLM-5.1 和 DeepSeek-V4-Pro 來拆分看看。

1、DeepSeek-V4-Pro

2、GLM-5.1

同樣的專案,同樣的檔案,同樣的提示詞,我現在讓 GLM-5.1 拆一下看看。

現在 GLM-5.1 與 DeepSeek-V4-Pro 都已經對這個超過 1000 行的程式檔案做完了拆分;GLM-5.1 將這個檔案拆分為 4 個檔案,用時大概 8 分 33 秒;DeepSeek-V4-Pro 將這個檔案拆分為 5 個檔案,用時大概 9 分 11 秒。

在速度上,GLM-5.1 稍稍領先,DeepSeek 拆分得更為精細,將 compare 拆分為 通用工具、判斷、新鮮度以及意圖識別 4 個檔案,拆分得更加精細,在程式檔案拆分的精細程度上,似乎 DeepSeek-V4-Pro 略勝一籌。

場景四:專案架構分析

最近剛好做了一個專案,目前已經上線運行了,但是技術債有點嚴重,剛好藉此時機讓兩個國產模型幫我分析專案架構並給出合理的調整建議。

1、DeepSeek-V4-Pro

2、GLM-5.1

可以看到,現在 DeepSeek-V4-Pro 以及 GLM-5.1 都對我的專案進行了分析並給出完整的分析報告,通過上面的專案架構分析可以看出,DeepSeek-V4-Pro 給出的架構分析比較全面,特別是最後的總結透過表格給出,還從不同的維度給出了評分,最後的一句話總結把專案的優劣都說到了。

GLM-5.1 分析的也不錯,當我讓它開始分析專案的時候,它首先徹底全面地探索了我的整個專案目錄,之後才進行分析,對於整體的專案架構分析得比較紮實;最後更是透過優先級排序的方式給出了專案的優化計畫,最後還明確指出了專案沒有使用 D1 原生綁定功能,給的建議更加實用,因此感覺 GLM-5.1 對於整體專案的把握度優 DeepSeek-V4-Pro。

關於使用成本

DeepSeek-V4-Pro 目前沒有 Coding Plan,所以我是透過 API 直接接入 Claude Code 進行使用的,今天剛剛儲值了 100 元,上面做了這些工作,花費 15.75 元。

GLM-5.1 因為有 Coding Plan,但是消耗的量也不少;下圖為今日消耗詳情。

維度總結

維度DeepSeek-V4-ProGLM-5.1評價原始碼理解能力⭐⭐⭐⭐⭐⭐⭐⭐⭐V4 能看懂,GLM-5.1 能吃透功能實作品質⭐⭐⭐⭐⭐⭐⭐⭐⭐V4 進步大,邊界處理還差一截大檔案處理能力⭐⭐⭐⭐⭐⭐⭐⭐這是差距最大的維度專案架構分析⭐⭐⭐⭐⭐⭐⭐⭐⭐分析得更加紮實,給出的建議更加實用使用成本⭐⭐⭐⭐⭐⭐⭐⭐V4 的傳統優勢結論:追上了嗎?

部分追上了,但還沒完全追上。

V4 在基礎編碼能力上的進步是實打實的,程式結構、命名規範、基本邏輯,這些做得都挺好。拿來寫日常的中小功能,完全夠用。

但在三個地方,V4 跟 GLM-5.1 還有明顯差距:

  1. 深度理解:不只是看程式在做什麼,而是理解為什麼這麼做
  2. 邊界意識:對異常、錯誤、極端情況的預判和處理
  3. 長上下文管理:大檔案、複雜專案中的全域把控能力

我的建議

  • 對於一些中等簡單的任務 → V4 性價比更高
  • 複雜專案、原始碼級工作 → GLM-5.1 依然是首選
  • 預算緊但又需要品質 → 兩個搭配著用,簡單任務給 V4,關鍵任務給 GLM-5.1

V4 是個好模型,進步肉眼可見。但 Coding 這條賽道,GLM-5.1 目前還是國產天花板。

你平常用哪個模型寫程式?在留言區聊聊你的體驗。


👋 我是孟健,前騰訊 T11 / 前字節技術 Leader,現在全職做 AI 編程。

🔥 更多 AI 編程實戰:

  • GitHub:@mengjian-github
  • 專欄:AI編程實戰

覺得有用?按讚+收藏 就是最大支持 🙏


原文出處:https://juejin.cn/post/7632230684447211554


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝3   💬3   ❤️1
199
🥈
我愛JS
💬2  
7
🥉
Gigi
2
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
📢 贊助商廣告 · 我要刊登