小編精選 - 技術文章翻譯 · 03月24日

為什麼中繼通道的頂級模型會不好用？這是一個技術問題

============================

同樣是 Claude opus 4.6，但是你的 4.6 和別人 4.6 可能根本不是一個智商，拋開對方賣假模型不談，為什麼你用的很多中轉渠道的 Claude / Gemini 體驗不好？其實這裡面是有技術原因的。

因為各種原因，很多時候大家都會選擇使用中轉平台的頂級模型，想着都是 Claude opus 4.6 或者 GPT-5.4，渠道還便宜那麼多，但是如果自己用過官方渠道的對比，就可能會有這樣的感覺：

在第三方渠道裡時好時壞
同一個模型，今天聰明，明天降智
寫程式時忽好忽壞
有時風格像 Claude，有時像 Gemini，有時像 GLM

很多人第一反應是：我是不是買到假模型了？實際上這還真不一定，你用的可能是真的 Claude 4.6，但只是渠道不對：

這個在中轉平台的問題往往出在：你以為你在直接用模型，但其實你在用一層一層的封裝層（wrapper），因為如果是官方 API，它的呼叫鏈很簡單：

Client → Official API → Model

但是在中轉的第三方渠道通常是：

Client
 → 中轉平台
   → provider router
     → IDE / Web / 企業帳號池 / 反代
       → 官方介面
         → Model

也就是鏈路會是：

Client → Wrapper → Wrapper → Wrapper → Wrapper → Model

而在這一個過程裡，每一層都可能改你的請求。

那為什麼中轉平台的第三方很少直接用官方 API？原因很簡單：官方 API 成本太高，況且賣你的價格很可能還比官方渠道便宜，為了更高利潤，中轉平台常會使用一些：

某些 IDE 內建額度
企業帳號池
Web session
反向代理
灰度介面
反向 SDK
羊毛渠道

而最常見的來源一般是：

antigravity
kiro
IDE quota
web cookie
proxy provider

這些帳號池來自不同地區、不同 SDK、不同系統和不同產品形態，就算都是 Gemini 3.1 pro 或者 Claude opus 4.6，但是它們的能力和場景風格也會差異很大。

很多人以為呼叫模型就是直接給模型 prompt 就可以了，但常見的基本情況是：

最終輸入 = system prompt + wrapper prompt + user prompt

而在中轉場景下，不同 IDE / SDK / Agent 都會帶自己的 system prompt，不同環境會自動加內容，例如：

IDE coding agent prompt
安全策略 prompt
tool calling prompt
chain-of-thought 控制 prompt
policy prompt
routing prompt

例如：

IDE A：

You are a coding assistant specialized in Kotlin

IDE B：

You are a safe AI assistant that must avoid unsafe code

Agent 框架：

You must always use tools when possible

Provider：

You must follow company policy X

中轉平台：

Respond concisely to reduce tokens

這些 prompt 會疊加的結果就是：模型的行為方式會發生改變，另外不同 wrapper 也會改 sampling 參數，而模型輸出不僅取決於 prompt，還取決於：

temperature
top_p
top_k
max_tokens
repetition penalty
stop sequence

比如官方的 temperature = 0.2 而某些渠道 temperature = 0.8，甚至有的平台會為了省 token，會強制縮短 max_tokens，就會導致回答變短、推理變差和程式碼不完整等情況。

比如你是不是經常遇到程式碼少了 }、,、; 的情況？

另外，不同 provider 的上下文長度也不一樣，中轉渠道如果自己做了 provider 限制，就會出現自動壓縮和自動摘要的情況，這時候模型就會有嚴重的失憶和指令遵循較差的情況出現。

當然，最最最重要的是，很多中轉的帳號池來自不同 SDK / IDE / Web session，它賣的模型並不是同一個來源，就算良心不做提示詞輸入輸出的隱形限制，你用的模型大多是不同渠道混在一起，而來自不同渠道的情況下，就會有：

system prompt 不同
policy 不同
tool 不同
context 不同
routing 不同

當中轉平台做負載均衡時：

請求1 → provider A
請求2 → provider B
請求3 → provider C

而切不同環境代理出來的模型，比如 Kiro、Antigravity、Copilot，本身它們自己都會加：

tool schema
function call
plan mode
reasoning mode
safety mode

所以模型看到的輸入完全不同，同一個 Opus，在不同 IDE，能力不一樣，這本身就是那些產品針對性調試過的，而你拿到的輸出，會在這些產品之間切換，這也就造成了上下文一直在污染。

所以，你就會感受到同一個模型，風格不穩定，這是系統提示詞切換帶來的污染，而且中轉平台還可能注入自己的 prompt，很多中轉會在系統層加：

限制 token
限制長度
限制推理
限制工具
限制聯網
限制安全

例如：

Always respond shortly
Do not output long reasoning
Avoid heavy computation

這也會實際影響到開發過程中的真實體驗。

最後，我們之前在《你用的 Claude 可能是虛假 Claude》就聊過，很多中轉平台為了控制成本，會選擇「摻水」，比如：

70% Opus
30% Flash

或者隨機：

Gemini Flash
Minimax
GLM
Llama

對於使用者來說這是個黑盒，你是用的模型 key 還是 claude-opus-4.6，但背後 router 可能是：

if high_load:
    use cheap_model

所以，第三方平台不一定就是賣你假模型，就算他真的賣你的是 kiro、antigravity 反代出來的真 Claude 和 Gemini，但還是不好用。

因為這個問題往往不是模型本身的問題，而是因為請求經過多層 wrapper / provider / prompt / router / agent / quota / proxy，導致 system prompt、參數、上下文和模型本體不斷變化，最終表現出「同名不同智商」的現象。

原文出處：https://juejin.cn/post/7619522038567616546

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

0個讚 0留言 375瀏覽

共有 0 則留言

登入之後發表留言

文字內容提供幾種功能：
1) --- 會變成分隔線（上一行必須是空白）
2) # 會變成一級標題
3) ## 會變成二級標題
4) ### 會變成三級標題
5) **粗體文字**會顯示粗體文字
6) ```當第一行與最後一行會顯示程式碼
7) 請搜尋 Markdown 語法，了解各種格式

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

🏆 本月排行榜

🥇

站長阿川

📝16 💬9 ❤️1

487

🥈

alicec

📝1 ❤️2

🥉

我愛JS

💬1

JCConf Taiwan

Gigi

評分標準：發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10

本數據每小時更新一次