============================

同樣是 Claude opus 4.6,但是你的 4.6 和別人 4.6 可能根本不是一個智商,拋開對方賣假模型不談,為什麼你用的很多中轉渠道的 Claude / Gemini 體驗不好?其實這裡面是有技術原因的。

因為各種原因,很多時候大家都會選擇使用中轉平台的頂級模型,想着都是 Claude opus 4.6 或者 GPT-5.4,渠道還便宜那麼多,但是如果自己用過官方渠道的對比,就可能會有這樣的感覺:

  • 在第三方渠道裡時好時壞
  • 同一個模型,今天聰明,明天降智
  • 寫程式時忽好忽壞
  • 有時風格像 Claude,有時像 Gemini,有時像 GLM

很多人第一反應是:我是不是買到假模型了?實際上這還真不一定,你用的可能是真的 Claude 4.6,但只是渠道不對

這個在中轉平台的問題往往出在:你以為你在直接用模型,但其實你在用一層一層的封裝層(wrapper),因為如果是官方 API,它的呼叫鏈很簡單:

Client → Official API → Model

但是在中轉的第三方渠道通常是:

Client
 → 中轉平台
   → provider router
     → IDE / Web / 企業帳號池 / 反代
       → 官方介面
         → Model

也就是鏈路會是:

Client → Wrapper → Wrapper → Wrapper → Wrapper → Model

而在這一個過程裡,每一層都可能改你的請求。

那為什麼中轉平台的第三方很少直接用官方 API?原因很簡單:官方 API 成本太高,況且賣你的價格很可能還比官方渠道便宜,為了更高利潤,中轉平台常會使用一些:

  • 某些 IDE 內建額度
  • 企業帳號池
  • Web session
  • 反向代理
  • 灰度介面
  • 反向 SDK
  • 羊毛渠道

而最常見的來源一般是:

  • antigravity
  • kiro
  • IDE quota
  • web cookie
  • proxy provider

這些帳號池來自不同地區、不同 SDK、不同系統和不同產品形態,就算都是 Gemini 3.1 pro 或者 Claude opus 4.6,但是它們的能力和場景風格也會差異很大。

很多人以為呼叫模型就是直接給模型 prompt 就可以了,但常見的基本情況是:

最終輸入 = system prompt + wrapper prompt + user prompt

而在中轉場景下,不同 IDE / SDK / Agent 都會帶自己的 system prompt,不同環境會自動加內容,例如:

  • IDE coding agent prompt
  • 安全策略 prompt
  • tool calling prompt
  • chain-of-thought 控制 prompt
  • policy prompt
  • routing prompt

例如:

IDE A:

You are a coding assistant specialized in Kotlin

IDE B:

You are a safe AI assistant that must avoid unsafe code

Agent 框架:

You must always use tools when possible

Provider:

You must follow company policy X

中轉平台:

Respond concisely to reduce tokens

這些 prompt 會疊加的結果就是:模型的行為方式會發生改變,另外不同 wrapper 也會改 sampling 參數,而模型輸出不僅取決於 prompt,還取決於:

  • temperature
  • top_p
  • top_k
  • max_tokens
  • repetition penalty
  • stop sequence

比如官方的 temperature = 0.2 而某些渠道 temperature = 0.8,甚至有的平台會為了省 token,會強制縮短 max_tokens,就會導致回答變短、推理變差和程式碼不完整等情況。

比如你是不是經常遇到程式碼少了 },; 的情況?

另外,不同 provider 的上下文長度也不一樣,中轉渠道如果自己做了 provider 限制,就會出現自動壓縮和自動摘要的情況,這時候模型就會有嚴重的失憶和指令遵循較差的情況出現

當然,最最最重要的是,很多中轉的帳號池來自不同 SDK / IDE / Web session,它賣的模型並不是同一個來源,就算良心不做提示詞輸入輸出的隱形限制,你用的模型大多是不同渠道混在一起,而來自不同渠道的情況下,就會有:

  • system prompt 不同
  • policy 不同
  • tool 不同
  • context 不同
  • routing 不同

當中轉平台做負載均衡時:

請求1 → provider A
請求2 → provider B
請求3 → provider C

而切不同環境代理出來的模型,比如 Kiro、Antigravity、Copilot,本身它們自己都會加:

  • tool schema
  • function call
  • plan mode
  • reasoning mode
  • safety mode

所以模型看到的輸入完全不同,同一個 Opus,在不同 IDE,能力不一樣,這本身就是那些產品針對性調試過的,而你拿到的輸出,會在這些產品之間切換,這也就造成了上下文一直在污染

所以,你就會感受到同一個模型,風格不穩定,這是系統提示詞切換帶來的污染,而且中轉平台還可能注入自己的 prompt,很多中轉會在系統層加:

  • 限制 token
  • 限制長度
  • 限制推理
  • 限制工具
  • 限制聯網
  • 限制安全

例如:

Always respond shortly
Do not output long reasoning
Avoid heavy computation

這也會實際影響到開發過程中的真實體驗。

最後,我們之前在《你用的 Claude 可能是虛假 Claude》就聊過,很多中轉平台為了控制成本,會選擇「摻水」,比如:

70% Opus
30% Flash

或者隨機:

Gemini Flash
Minimax
GLM
Llama

對於使用者來說這是個黑盒,你是用的模型 key 還是 claude-opus-4.6,但背後 router 可能是:

if high_load:
    use cheap_model

所以,第三方平台不一定就是賣你假模型,就算他真的賣你的是 kiro、antigravity 反代出來的真 Claude 和 Gemini,但還是不好用。

因為這個問題往往不是模型本身的問題,而是因為請求經過多層 wrapper / provider / prompt / router / agent / quota / proxy,導致 system prompt、參數、上下文和模型本體不斷變化,最終表現出「同名不同智商」的現象。


原文出處:https://juejin.cn/post/7619522038567616546


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝14   💬10   ❤️2
399
🥈
我愛JS
📝2   💬9   ❤️2
88
🥉
💬1  
4
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付