2026年6月1日起,GitHub Copilot 的計費機制改變了。
在 X(Twitter)上,不論日本還是海外,幾乎都是一片負面聲浪。部分使用者回報,Claude Sonnet 的點數消耗量是舊制度的 9 倍,Claude Opus 甚至高達 27 倍;對於平常就有在大量使用 Agent mode 的人來說,幾乎等同於大幅漲價。
因應這場騷動,我去研究了「到底要怎麼節省 token」這個問題。這次主要整理的是 X(Twitter)上海外使用者分享的 token 節省資訊。
關於 Netflix 工程師做的 token 壓縮工具「Headroom」,請參考我先前發表的文章:以前投稿した記事。這次則會以其他手法為主來整理。
舊制度是以「Premium Request」這個單位來管理。每次呼叫 GPT-4o 或 Claude Sonnet 都會消耗一定數量的 Premium Request,超過上限後就會自動切換成較低品質的模型。即使到達上限,也不會完全停機,算是有一道保護機制。
新制度的「GitHub AI Credits」則是依照 token 消耗量來計費。1 AI Credit 大致相當於 約 $0.01 美元(目安),輸入、輸出、快取 token 都會依照各模型的單價計算。
各方案每月提供的 credit 如下:
方案每月價格基本 credit 彈性配額每月合計 AI creditsCopilot Pro$101,0005001,500Copilot Pro+$393,9003,1007,000Copilot Max$10010,00010,00020,000※ Pro / Pro+ 含彈性配額
※來源:GitHub 官方文件 - 個人用量計費
也就是說,月費不變,但會給等值的 credit。
這點很重要,特別強調一下。行內補完與 Next Edit 建議不會消耗 AI Credits。 所有方案目前 暫時 都還是無限使用。現在引發爭議的是聊天、Agent mode 和程式碼審查。
如果只是透過聊天問一個簡短問題,例如輸入 500 token、輸出 200 token,那消耗的 credit 很少,單次成本也不算高。
但 Agent mode 不一樣。當你說「幫我修這個功能」,代理會去讀多個檔案、呼叫工具、把前一輪脈絡再餵回去,然後反覆實作與驗證。單一請求會在內部拆成數十次模型呼叫,輸入與輸出 token 累積得很快。而且舊制度的 fallback 也被取消了,所以 credits 用完後,功能就會停止(程式碼補完仍可繼續)。
2026 年 3 月左右,GitHub 上出現了一個 JuliusBrussee/caveman 倉庫,幾天內就拿到數千顆星。
概念很簡單,「讓 LLM 用原始人一樣的方式說話」。
※ Caveman = 原始人
# Caveman Mode
- No filler
- No grammar if not needed
- No repetition
- Use keywords, arrows, symbols
- Compress aggressively
- Assume user smart
Output = shortest correct answer possible
一般 LLM 會這樣回答:
「你可以使用 JOIN。在 SQL 中,當你使用共通鍵將兩個資料表的資料結合時,可以活用 JOIN 子句。」
Caveman Mode 會變成這樣:
「JOIN 使う」
意思一樣,但 token 數差很多。
雖然以「可減少 75%」的宣傳方式廣為流傳,但實測者的數據如下:
檢驗者條件減少率作者方基準測試各類 coding task 最高 75% Kuba GuzikClaude Sonnet/Opus,18 次14~21%Better Stack 自建基準45%(僅輸出)和 Headroom 的情況一樣,「程式碼區塊本身不會被壓縮」這個規格會拉低數字。如果輸出大多是程式碼,效果就會有限。
根據 2026 年 3 月的 arXiv 論文(arXiv:2604.00025),在 31 個模型、1,485 題的評估中發現,限制簡潔度有時反而能提升大型模型的準確率。
原因似乎是大型模型在寫太多多餘說明時,會讓自己也混亂,這種現象被稱為 spontaneous scale-dependent verbosity。也就是說,不只省成本,對品質也可能有正面影響。
Caveman Prompt 的系統提示詞本體有 數百 token。如果是單次查詢,這個額外成本可能比省下來的部分還多。只有在多輪對話、且 Prompt Cache 能生效時,情況才會改變。
適合的情境:
不適合的情境:
GitHub Copilot 新的計費制度中,快取 token 的單價也比輸入 token 便宜。是否有意識地做這種設計,會直接影響同樣工作下的帳單金額。
LLM 每次都從頭讀相同文字非常沒效率。Anthropic 使用 KV(Key-Value)Cache,將已讀過的前綴計算結果儲存在伺服器端。第二次以後可享 90% 折扣(Anthropic 官方)。
在 X(Twitter)上,也有人分享透過 快取大幅降低成本 的案例。
# 讓快取生效的配置方式(順序很重要)
[放在上面:靜態內容]
- 系統提示詞
- 專案規範・限制
- 工具定義
[放在下面:動態內容]
- 對話紀錄
- 工具執行結果
- 最新的使用者訊息
Anthropic API 需要指定 cache breakpoint(cache_control),但在 Copilot 或各種 AI 代理中,內部也使用類似的快取策略,因此一般都建議把靜態資訊放在開頭。
2026 年 4 月 29 日推出的 VSCode 1.118,已經把 GitHub Copilot 的快取相關機制優化了不少。
如果你有一陣子沒更新 VSCode,光是升級到最新版,可能就能感受到效果。
Visual Studio Code 1.118 - 官方發行說明
在 GitHub Copilot 中,使用者可以有意識地讓快取更容易生效的方法
在系統提示詞中塞入時間戳、在 session 中切換模型、改變工具定義的順序。
這些都會造成快取 miss。
這是 Copilot 新制度下特別重要的概念。把高性能模型拿來做所有任務,就像搭計程車通勤一樣。
Copilot 可用的主要模型成本感如下(credit 消耗量以模型實際 token 單價為準)
※ 模型清單會依用戶端或方案不同而異,請以最新的 model picker 為準
模型群成本感適合的工作Gemini Flash・GPT mini 系列・Claude Haiku便宜輕量作業・例行性工作GPT-5 系列・Claude Sonnet 系列・Gemini Pro 系列中等一般開發任務GPT-5.5・Claude Opus 系列昂貴複雜設計・高難度問題解決部分使用者回報,Claude Sonnet 的倍率是舊制度的 9 倍,Opus 則是 27 倍。如果在 Pro(月 1,500 credits)方案上大量使用 Opus 系列,幾天內就會用光。
所以,首先應該把 Auto 模式當作核心。Auto 模式會根據 Copilot 即時追蹤系統健康狀況與可用性,並評估任務複雜度(推理、程式碼生成複雜度、除錯難度、工具編排需求),再自動選擇最佳模型。
雖然為了讓快取生效,通常不建議在 session 中切換模型,但 Auto 模式的設計本身會考量快取邊界來路由。從這個角度來看,Auto 模式和成本最佳化很相容。
※ Auto 會把 Opus 等高成本模型排除在路由對象之外,所以如果你想用 Opus 等模型,必須手動指定。
這是一種把檔案探索、grep、執行測試等「讀取成本很高的操作」丟到另一個 context window,讓主對話保持輕量的做法。
如果在 Agent mode 中大量讀取檔案,輸入 token 會迅速累積。把調查工作委派給子代理,並且只讓它回傳摘要,就能將對主脈絡的影響降到最低。
可以這樣指示:
請調查 src/auth 底下的驗證流程,
只列出畫序列圖需要的類別與方法,
用條列式回覆即可(不需要程式碼本體)。
這樣一來,檔案探索的成本就不會算進主 session 裡。

情境主要問題建議手法DB 查詢結果、Log、JSON 太大輸入 token 過多Headroom代理說明太長輸出 token 過多Caveman Prompt同一個系統提示詞反覆送出輸入重複Prompt Caching檔案探索、調查導致脈絡膨脹脈絡污染子代理分離把 Opus 用在單純任務上模型過度使用模型路由也可以搭配使用。把 Caveman Prompt 放進系統提示詞後,額外的提示詞部分會成為快取對象,因此可以在降低額外負擔的同時,得到減少輸出的效果。
我前一篇有提到,Headroom 對這兩種情境幫助不大。那麼該用什麼?
最有效的是 Prompt Caching。設計書屬於「每一輪都不太會變的靜態文字」,和快取的相容性非常高。把設計摘要或規範寫到 copilot-instructions.md 中後,在每次新增或修改規格時,就不需要每次都用完整成本重新讀取。
子代理分離 才是最實際的解法。如果把整份程式碼都讀進主脈絡,很快就會爆掉。透過「只回傳需要的類別與方法條列」這種委派任務,就能大幅減少流入主脈絡的資訊量。
另外,不建議在設計書輸出中使用 Caveman Prompt,因為設計書會變成原始人語。
GitHub Copilot 的價格調整,不只是「價格表改了」而已,也讓人重新思考「要用哪個模型、怎麼用、用在哪裡」。
如果毫無思考地一直用 Agent mode,credits 會一下子燒光。不過,程式碼補完 目前 還是無限使用,所以短期內比較現實的做法,是「只要注意聊天和代理就好」。
Copilot 的儀表板現在已經能看到各模型、各功能的消耗量,所以我認為應該先確認自己的消耗模式,再決定要採取哪些對策。有試過的人,也歡迎留言分享心得!
※ 我另外也研究了 Netflix 工程師做的省 token 工具「Headroom」,想節省 token 費的人也可以看下面這篇文章。