GLM-5.2 能打了,但還不能取代 GPT

大家好,我是孟健。GLM-5.2 是我最近用下來最意外的國產模型:它已經很接近 GPT、Claude 的第一梯隊,但我不會建議你今天就把 Agent 全切過去。

01 先說結論:國內第一,但不是預設主力

我接觸國產模型的時間不短了,大多數時候的結論都是「還行,但差一截」。GLM-5.2 是第一次讓我覺得,這句話得改一改。

整體表現上,它已經是我用過的國內模型裡最強的。跟 GPT、Claude 的頂級梯隊比,差距已經不算特別大。但「不算特別大」和「可以取代」是兩件事,後面我會細說。

在 AI 編程和 Agent 長任務這兩個方向,國內模型之前很少能進入選型討論——通常是「沒有預算才用」或者排在最末位的備選。GLM-5.2 是第一次讓我覺得,它有資格參與主力候選的對比,放進同一張選型表裡認真看。

但今天你如果問我,要不要把所有 Agent 都切過去——不要。

衡量「能用」和「適合當主力」,標準不同。能用,看能力上限。適合當主力,看穩定性、額度、生態接入成本。GLM-5.2 在能力上已經過了門檻,在後三項上還沒到位。這三個問題,往下說。


02 真正變強的是長任務和 Agent 感

GLM-5.2 的官方定位是面向長任務的旗艦文字模型,支援 1M 上下文、最大輸出 128K tokens。

這兩個數字放在一起,意味著它可以一口氣吃下一個中等規模的程式碼倉庫,然後給你輸出一份完整的重構方案。整個倉庫丟進去,省掉分段餵或者靠外部向量檢索補漏的步驟。對於需要跨檔理解的工程任務,這個上下文視窗是實打實的優勢。

官方強調的場景是:專案級工程接管、長程重構、生產規範壓力測試、行動端真機調試,以及微信小程式、遊戲、小型遊戲、科研復刻這類有具體工程語境的任務。跟以往國產模型主打「通用能力」的定位不同,GLM-5.2 在往垂直工程方向走。

GLM-5.2 官方文件:1M 上下文、128K 輸出和核心能力

我自己用下來,印象最深的是複雜任務裡的穩定性。以前用國產模型跑長流程 Agent,經常在中途出現上下文理解斷層——前面定義過的變數命名規範,跑了幾步之後就忘了,或者指令跟蹤能力突然變差,前後不一致。GLM-5.2 在這方面好一些。推進一個多步驟的工程任務,它能跟下去的機率比之前明顯高。跑完一個完整流程再出錯,總比中途亂掉容易處理。

官方給出的基準數據:FrontierSWE 上僅落後 Opus 4.8 約 1%,超過 GPT-5.5 約 1%,超過 Opus 4.7 約 11%;SWE-Marathon 上與 Opus 4.8 仍有約 13% 的差距。

這組數字不是絕對真理,基準測試跟實際工程場景永遠有出入。但趨勢方向值得參考——在 SWE 這類編程任務基準上,國內模型第一次進入了可以和 Opus、GPT 並列放在一張表裡討論的位置,這本身就是信號。


03 問題也很現實:限流、倍數、額度消耗

能力強歸能力強,用起來的摩擦感是真實存在的。

Coding Plan 有兩層限額:每 5 小時一個額度上限,每週一個總額度。Lite 套餐大約 80 prompts / 5h,Pro 約 400/5h,Max 約 1600/5h——對應週額度分別約 400、2000、8000 prompts。

然後是倍數消耗。GLM-5.2 是高階模型,對標 Claude Opus。高峰期(北京時間 14:00–18:00)按 3 倍額度消耗,非高峰期 2 倍。有個限時福利是非高峰 1 倍抵扣,持續到 9 月底。

GLM Coding Plan 用量說明:5 小時限額、週限額和高峰期倍數消耗

換算下來,一個跑得起來的 Agent 任務,在高峰期的消耗量非常可觀。你以為在用 1 個 prompt,實際計費是 3 個。高強度工作流下,一天的額度在兩三個小時裡就能燒完。

我之前把三個 Agent 切到了 GPT,一週額度就耗光了。拿這個例子不是說 GPT 貴——高強度 Agent 使用下,任何模型的額度消耗都快。GLM 這邊情況類似,高峰期 3 倍的乘數會把這個過程壓縮得更短。

Pro 套餐每週 2000 prompts 聽起來夠,但高峰期全 3 倍消耗,實際能跑的 Agent 輪數打個折扣。想無限制地跑,基本得上千元的團隊版。對比 200 美元的 GPT Pro,各有各的帳本,很難簡單比高下。

額度之外還有時間窗口的問題。高峰期限制明顯,實際上會逼著你養成「大任務留到非高峰跑」的習慣。對有時間彈性的工作流來說這可以接受,但如果你的 Agent 需要在工作時間全天候回應,這個限制會很快變成瓶頸。


04 接入不是無痛:工具鏈這裡卡了很久

這一節是我覺得對高級使用者最關鍵、但官方最不會主動說清楚的部分。

官方說法是 Coding Plan 套餐僅限在官方支援的工具/產品環境中使用。OpenClaw 被列為支援工具之一,但實際是採用次級調度與盡力交付策略,高負載下會動態排隊、限流。

GLM Coding Plan 官方工具說明:支援工具與 OpenClaw 調度策略

我這邊實際接入時,遇到的問題更直接。Hermes 和 OpenClaw 的接入過程裡,有明顯的定向攔截——不改原始碼基本繞不過去。具體表現是請求能發出去,但回傳要麼逾時,要麼是拒絕類回應,跟普通限流的錯誤格式不一樣,更像是識別到客戶端特徵之後的處理。

周圍幾個用同類工具的人也碰到了類似情況,大概率是系統行為,不是偶發。

這意味著什麼?如果你的工作流依賴非官方管道、或者自訂工具鏈,接入 GLM-5.2 的成本遠比「換一下 API endpoint」高。要麼改原始碼,要麼換工具,要麼接受次級調度帶來的不穩定。

模型能力追上來之後,真正決定能不能落地的,往往是額度、生態和限制這三項現實問題。

OpenRouter 上 GLM-5.2 目前的標價是 1.20 input / 4.10 output per 1M tokens,2026 年 6 月 16 日發布,Hugging Face 上有開放權重。如果你有自己的推理環境,這條路繞過 Coding Plan 的額度限制會更靈活。但自建推理的接入成本是另一個故事——GPU 資源、維運、延遲,每一項都要另算。

OpenRouter 上的 GLM-5.2:價格、上下文視窗和模型發布資訊


05 我的建議:別取代 GPT,把它放進模型組合

我現在的用法是把 GLM-5.2 當補位武器,不是主力。

GPT 安全限制太強的任務。 有些任務 GPT 的安全策略會攔截,或者拒絕走到底。GLM-5.2 在這方面限制相對寬鬆,可以接手 GPT 不願意碰的部分。這是最直接的補位價值,不用改工作流,直接拿來填空。

長上下文倉庫理解。 1M context 在這裡是實打實的優勢,尤其是需要一次性讀完大量程式碼再做判斷的場景——讀取、分析、輸出方案一次完成,比多輪分段餵效率高不少。適合用在「全量掃一遍再說」的分析類任務上。

國產環境和中文工程場景。 微信小程式、遊戲、國內特有技術棧,這些場景裡 GLM 的工程上下文更貼近實際,值得單獨測試,比對一下輸出品質再決定要不要替換。

非高峰期的大任務。 凌晨或者早上跑,1 倍抵扣(限時福利到 9 月底)、非高峰期 2 倍消耗,是成本最優的時間窗口。跑時間長、對延遲不敏感的任務,排到這段時間最合適。

作為第二意見模型。 一個複雜決策讓兩個模型分別給出方案,再對比。GLM-5.2 有時候能從不同角度給出 GPT 沒覆蓋到的判斷。互補的價值大於直接取代,用在最終決策前的校驗環節效果不錯。

不適合用在這幾個場景:全天候高強度 Agent 群、需要無限制自動化、對穩定額度有要求的生產主鏈路。這些場景下,GLM-5.2 目前的限流和接入摩擦都會成為瓶頸,容易出現跑到一半卡住又得切回來的情況。

今天的國產模型,第一次讓我覺得可以認真討論「放在哪個位置用」這個問題,不只是追問「能不能用」。你不用再問國產模型能不能寫程式了,這條已經過線了。現在該問的是:它適不適合進你的 Agent 預算表,放哪個位置,跟哪個主力模型搭配。

最危險的用法,是因為它能力強了,就把所有 Agent 一把切過去,然後在高峰期被限流卡死,再重新換回來。這個切換成本不低,來回折騰很容易浪費掉原本可以生產的時間。

GLM-5.2 的限制主要體現在額度能不能撐住你的用量,能力這邊已經過線了。用對了位置,它是真實的增量。用錯了位置,它的限制會比你想像的更快顯現出來。


👋 我是孟健,前騰訊 T11 / 前字節技術 Leader,現在全職做 AI 編程。

🔥 更多 AI 編程實戰:

  • GitHub:@mengjian-github
  • 專欄:AI編程實戰

覺得有用?按讚 + 收藏 就是最大支持 🙏


原文出處:https://juejin.cn/post/7653847759125987368


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝14   💬2   ❤️1
743
🥈
我愛JS
📝1   ❤️1
67
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
📢 贊助商廣告 · 我要刊登