小編精選 - 技術文章翻譯 · 06月25日

GLM-5.2 能打了，但還不能取代 GPT

大家好，我是孟健。GLM-5.2 是我最近用下來最意外的國產模型：它已經很接近 GPT、Claude 的第一梯隊，但我不會建議你今天就把 Agent 全切過去。

01 先說結論：國內第一，但不是預設主力

我接觸國產模型的時間不短了，大多數時候的結論都是「還行，但差一截」。GLM-5.2 是第一次讓我覺得，這句話得改一改。

整體表現上，它已經是我用過的國內模型裡最強的。跟 GPT、Claude 的頂級梯隊比，差距已經不算特別大。但「不算特別大」和「可以取代」是兩件事，後面我會細說。

在 AI 編程和 Agent 長任務這兩個方向，國內模型之前很少能進入選型討論——通常是「沒有預算才用」或者排在最末位的備選。GLM-5.2 是第一次讓我覺得，它有資格參與主力候選的對比，放進同一張選型表裡認真看。

但今天你如果問我，要不要把所有 Agent 都切過去——不要。

衡量「能用」和「適合當主力」，標準不同。能用，看能力上限。適合當主力，看穩定性、額度、生態接入成本。GLM-5.2 在能力上已經過了門檻，在後三項上還沒到位。這三個問題，往下說。

02 真正變強的是長任務和 Agent 感

GLM-5.2 的官方定位是面向長任務的旗艦文字模型，支援 1M 上下文、最大輸出 128K tokens。

這兩個數字放在一起，意味著它可以一口氣吃下一個中等規模的程式碼倉庫，然後給你輸出一份完整的重構方案。整個倉庫丟進去，省掉分段餵或者靠外部向量檢索補漏的步驟。對於需要跨檔理解的工程任務，這個上下文視窗是實打實的優勢。

官方強調的場景是：專案級工程接管、長程重構、生產規範壓力測試、行動端真機調試，以及微信小程式、遊戲、小型遊戲、科研復刻這類有具體工程語境的任務。跟以往國產模型主打「通用能力」的定位不同，GLM-5.2 在往垂直工程方向走。

GLM-5.2 官方文件：1M 上下文、128K 輸出和核心能力

我自己用下來，印象最深的是複雜任務裡的穩定性。以前用國產模型跑長流程 Agent，經常在中途出現上下文理解斷層——前面定義過的變數命名規範，跑了幾步之後就忘了，或者指令跟蹤能力突然變差，前後不一致。GLM-5.2 在這方面好一些。推進一個多步驟的工程任務，它能跟下去的機率比之前明顯高。跑完一個完整流程再出錯，總比中途亂掉容易處理。

官方給出的基準數據：FrontierSWE 上僅落後 Opus 4.8 約 1%，超過 GPT-5.5 約 1%，超過 Opus 4.7 約 11%；SWE-Marathon 上與 Opus 4.8 仍有約 13% 的差距。

這組數字不是絕對真理，基準測試跟實際工程場景永遠有出入。但趨勢方向值得參考——在 SWE 這類編程任務基準上，國內模型第一次進入了可以和 Opus、GPT 並列放在一張表裡討論的位置，這本身就是信號。

03 問題也很現實：限流、倍數、額度消耗

能力強歸能力強，用起來的摩擦感是真實存在的。

Coding Plan 有兩層限額：每 5 小時一個額度上限，每週一個總額度。Lite 套餐大約 80 prompts / 5h，Pro 約 400/5h，Max 約 1600/5h——對應週額度分別約 400、2000、8000 prompts。

然後是倍數消耗。GLM-5.2 是高階模型，對標 Claude Opus。高峰期（北京時間 14:00–18:00）按 3 倍額度消耗，非高峰期 2 倍。有個限時福利是非高峰 1 倍抵扣，持續到 9 月底。

GLM Coding Plan 用量說明：5 小時限額、週限額和高峰期倍數消耗

換算下來，一個跑得起來的 Agent 任務，在高峰期的消耗量非常可觀。你以為在用 1 個 prompt，實際計費是 3 個。高強度工作流下，一天的額度在兩三個小時裡就能燒完。

我之前把三個 Agent 切到了 GPT，一週額度就耗光了。拿這個例子不是說 GPT 貴——高強度 Agent 使用下，任何模型的額度消耗都快。GLM 這邊情況類似，高峰期 3 倍的乘數會把這個過程壓縮得更短。

Pro 套餐每週 2000 prompts 聽起來夠，但高峰期全 3 倍消耗，實際能跑的 Agent 輪數打個折扣。想無限制地跑，基本得上千元的團隊版。對比 200 美元的 GPT Pro，各有各的帳本，很難簡單比高下。

額度之外還有時間窗口的問題。高峰期限制明顯，實際上會逼著你養成「大任務留到非高峰跑」的習慣。對有時間彈性的工作流來說這可以接受，但如果你的 Agent 需要在工作時間全天候回應，這個限制會很快變成瓶頸。

04 接入不是無痛：工具鏈這裡卡了很久

這一節是我覺得對高級使用者最關鍵、但官方最不會主動說清楚的部分。

官方說法是 Coding Plan 套餐僅限在官方支援的工具/產品環境中使用。OpenClaw 被列為支援工具之一，但實際是採用次級調度與盡力交付策略，高負載下會動態排隊、限流。

GLM Coding Plan 官方工具說明：支援工具與 OpenClaw 調度策略

我這邊實際接入時，遇到的問題更直接。Hermes 和 OpenClaw 的接入過程裡，有明顯的定向攔截——不改原始碼基本繞不過去。具體表現是請求能發出去，但回傳要麼逾時，要麼是拒絕類回應，跟普通限流的錯誤格式不一樣，更像是識別到客戶端特徵之後的處理。

周圍幾個用同類工具的人也碰到了類似情況，大概率是系統行為，不是偶發。

這意味著什麼？如果你的工作流依賴非官方管道、或者自訂工具鏈，接入 GLM-5.2 的成本遠比「換一下 API endpoint」高。要麼改原始碼，要麼換工具，要麼接受次級調度帶來的不穩定。

模型能力追上來之後，真正決定能不能落地的，往往是額度、生態和限制這三項現實問題。

OpenRouter 上 GLM-5.2 目前的標價是 1.20 input / 4.10 output per 1M tokens，2026 年 6 月 16 日發布，Hugging Face 上有開放權重。如果你有自己的推理環境，這條路繞過 Coding Plan 的額度限制會更靈活。但自建推理的接入成本是另一個故事——GPU 資源、維運、延遲，每一項都要另算。

OpenRouter 上的 GLM-5.2：價格、上下文視窗和模型發布資訊

05 我的建議：別取代 GPT，把它放進模型組合

我現在的用法是把 GLM-5.2 當補位武器，不是主力。

GPT 安全限制太強的任務。 有些任務 GPT 的安全策略會攔截，或者拒絕走到底。GLM-5.2 在這方面限制相對寬鬆，可以接手 GPT 不願意碰的部分。這是最直接的補位價值，不用改工作流，直接拿來填空。

長上下文倉庫理解。 1M context 在這裡是實打實的優勢，尤其是需要一次性讀完大量程式碼再做判斷的場景——讀取、分析、輸出方案一次完成，比多輪分段餵效率高不少。適合用在「全量掃一遍再說」的分析類任務上。

國產環境和中文工程場景。 微信小程式、遊戲、國內特有技術棧，這些場景裡 GLM 的工程上下文更貼近實際，值得單獨測試，比對一下輸出品質再決定要不要替換。

非高峰期的大任務。 凌晨或者早上跑，1 倍抵扣（限時福利到 9 月底）、非高峰期 2 倍消耗，是成本最優的時間窗口。跑時間長、對延遲不敏感的任務，排到這段時間最合適。

作為第二意見模型。 一個複雜決策讓兩個模型分別給出方案，再對比。GLM-5.2 有時候能從不同角度給出 GPT 沒覆蓋到的判斷。互補的價值大於直接取代，用在最終決策前的校驗環節效果不錯。

不適合用在這幾個場景：全天候高強度 Agent 群、需要無限制自動化、對穩定額度有要求的生產主鏈路。這些場景下，GLM-5.2 目前的限流和接入摩擦都會成為瓶頸，容易出現跑到一半卡住又得切回來的情況。

今天的國產模型，第一次讓我覺得可以認真討論「放在哪個位置用」這個問題，不只是追問「能不能用」。你不用再問國產模型能不能寫程式了，這條已經過線了。現在該問的是：它適不適合進你的 Agent 預算表，放哪個位置，跟哪個主力模型搭配。

最危險的用法，是因為它能力強了，就把所有 Agent 一把切過去，然後在高峰期被限流卡死，再重新換回來。這個切換成本不低，來回折騰很容易浪費掉原本可以生產的時間。

GLM-5.2 的限制主要體現在額度能不能撐住你的用量，能力這邊已經過線了。用對了位置，它是真實的增量。用錯了位置，它的限制會比你想像的更快顯現出來。

👋 我是孟健，前騰訊 T11 / 前字節技術 Leader，現在全職做 AI 編程。

🔥 更多 AI 編程實戰：

GitHub：@mengjian-github
專欄：AI編程實戰

覺得有用？按讚 + 收藏 就是最大支持 🙏

原文出處：https://juejin.cn/post/7653847759125987368

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

0個讚 0留言 400瀏覽

共有 0 則留言

登入之後發表留言

文字內容提供幾種功能：
1) --- 會變成分隔線（上一行必須是空白）
2) # 會變成一級標題
3) ## 會變成二級標題
4) ### 會變成三級標題
5) **粗體文字**會顯示粗體文字
6) ```當第一行與最後一行會顯示程式碼
7) 請搜尋 Markdown 語法，了解各種格式

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

🏆 本月排行榜

🥇

站長阿川

📝12 💬3 ❤️5

486

🥈

我愛JS

📝3 💬6 ❤️4

174

評分標準：發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10

本數據每小時更新一次