小編精選 - 技術文章翻譯 · 06月06日

因為 GitHub Copilot 的費用調整鬧得沸沸揚揚，所以我整理了最新的 Token 削減手法

2026年6月1日起，GitHub Copilot 的計費機制改變了。

在 X（Twitter）上，不論日本還是海外，幾乎都是一片負面聲浪。部分使用者回報，Claude Sonnet 的點數消耗量是舊制度的 9 倍，Claude Opus 甚至高達 27 倍；對於平常就有在大量使用 Agent mode 的人來說，幾乎等同於大幅漲價。

因應這場騷動，我去研究了「到底要怎麼節省 token」這個問題。這次主要整理的是 X（Twitter）上海外使用者分享的 token 節省資訊。

關於 Netflix 工程師做的 token 壓縮工具「Headroom」，請參考我先前發表的文章：以前投稿した記事。這次則會以其他手法為主來整理。

3 行總結

GitHub Copilot 自 6/1 起改為用量計費，重度使用 Agent mode 的人等於實質大漲價
目前減少輸出最有效的是 穴居人（原始人）Prompt，減少輸入最有效的是 Prompt Cache
設計書 → 程式碼適合用快取策略；程式碼 → 設計書則以子代理分離最實際

首先，改了什麼

舊制度是以「Premium Request」這個單位來管理。每次呼叫 GPT-4o 或 Claude Sonnet 都會消耗一定數量的 Premium Request，超過上限後就會自動切換成較低品質的模型。即使到達上限，也不會完全停機，算是有一道保護機制。

新制度的「GitHub AI Credits」則是依照 token 消耗量來計費。1 AI Credit 大致相當於 約 $0.01 美元（目安），輸入、輸出、快取 token 都會依照各模型的單價計算。

各方案每月提供的 credit 如下：

方案每月價格基本 credit 彈性配額每月合計 AI creditsCopilot Pro$101,0005001,500Copilot Pro+$393,9003,1007,000Copilot Max$10010,00010,00020,000※ Pro / Pro+ 含彈性配額
※來源：GitHub 官方文件 - 個人用量計費

也就是說，月費不變，但會給等值的 credit。

程式碼補完仍然免費

這點很重要，特別強調一下。行內補完與 Next Edit 建議不會消耗 AI Credits。 所有方案目前暫時都還是無限使用。現在引發爭議的是聊天、Agent mode 和程式碼審查。

為什麼 Agent mode 會突然變得很貴

如果只是透過聊天問一個簡短問題，例如輸入 500 token、輸出 200 token，那消耗的 credit 很少，單次成本也不算高。

但 Agent mode 不一樣。當你說「幫我修這個功能」，代理會去讀多個檔案、呼叫工具、把前一輪脈絡再餵回去，然後反覆實作與驗證。單一請求會在內部拆成數十次模型呼叫，輸入與輸出 token 累積得很快。而且舊制度的 fallback 也被取消了，所以 credits 用完後，功能就會停止（程式碼補完仍可繼續）。

X（Twitter）上討論的 4 種減量手法

1. Caveman Prompt（減少輸出 token）

2026 年 3 月左右，GitHub 上出現了一個 JuliusBrussee/caveman 倉庫，幾天內就拿到數千顆星。

概念很簡單，「讓 LLM 用原始人一樣的方式說話」。
※ Caveman = 原始人

# Caveman Mode
- No filler
- No grammar if not needed
- No repetition
- Use keywords, arrows, symbols
- Compress aggressively
- Assume user smart
Output = shortest correct answer possible

一般 LLM 會這樣回答：

「你可以使用 JOIN。在 SQL 中，當你使用共通鍵將兩個資料表的資料結合時，可以活用 JOIN 子句。」

Caveman Mode 會變成這樣：

「JOIN 使う」

意思一樣，但 token 數差很多。

實際上能省多少 %

雖然以「可減少 75%」的宣傳方式廣為流傳，但實測者的數據如下：

檢驗者條件減少率作者方基準測試各類 coding task 最高 75% Kuba GuzikClaude Sonnet/Opus，18 次14～21%Better Stack 自建基準45%（僅輸出）和 Headroom 的情況一樣，「程式碼區塊本身不會被壓縮」這個規格會拉低數字。如果輸出大多是程式碼，效果就會有限。

讓回答變簡潔，準確率反而可能上升

根據 2026 年 3 月的 arXiv 論文（arXiv:2604.00025），在 31 個模型、1,485 題的評估中發現，限制簡潔度有時反而能提升大型模型的準確率。

原因似乎是大型模型在寫太多多餘說明時，會讓自己也混亂，這種現象被稱為 spontaneous scale-dependent verbosity。也就是說，不只省成本，對品質也可能有正面影響。

不建議用在單次查詢

Caveman Prompt 的系統提示詞本體有 數百 token。如果是單次查詢，這個額外成本可能比省下來的部分還多。只有在多輪對話、且 Prompt Cache 能生效時，情況才會改變。

適合的情境：

重複進行長時間的代理工作階段（可吃到快取）
主要是在生成說明、分析、摘要，而不是程式碼
代理會反覆問同一類問題的流程

不適合的情境：

單次提問
輸出大多是程式碼區塊時
需要很詳細說明的文件生成

2. Prompt Caching（減少輸入 token）

GitHub Copilot 新的計費制度中，快取 token 的單價也比輸入 token 便宜。是否有意識地做這種設計，會直接影響同樣工作下的帳單金額。

機制回顧

LLM 每次都從頭讀相同文字非常沒效率。Anthropic 使用 KV（Key-Value）Cache，將已讀過的前綴計算結果儲存在伺服器端。第二次以後可享 90% 折扣（Anthropic 官方）。

在 X（Twitter）上，也有人分享透過 快取大幅降低成本 的案例。

靜態內容放上面，動態內容放下面

# 讓快取生效的配置方式（順序很重要）

[放在上面：靜態內容]
- 系統提示詞
- 專案規範・限制
- 工具定義

[放在下面：動態內容]
- 對話紀錄
- 工具執行結果
- 最新的使用者訊息

Anthropic API 需要指定 cache breakpoint（cache_control），但在 Copilot 或各種 AI 代理中，內部也使用類似的快取策略，因此一般都建議把靜態資訊放在開頭。

2026 年 4 月 29 日推出的 VSCode 1.118，已經把 GitHub Copilot 的快取相關機制優化了不少。
如果你有一陣子沒更新 VSCode，光是升級到最新版，可能就能感受到效果。
Visual Studio Code 1.118 - 官方發行說明

在 GitHub Copilot 中，使用者可以有意識地讓快取更容易生效的方法

在 .github/copilot-instructions.md（自訂指示）中寫入靜態的專案規範 → 每個 session 都會有相同文字出現在前面，內部快取更容易生效
在 session 中不要切換模型 → 會破壞快取
把規則拆到提示詞檔（.prompt.md）中 → 每次重用時更容易吃到快取

有效使用快取時不該做的事

在系統提示詞中塞入時間戳、在 session 中切換模型、改變工具定義的順序。
這些都會造成快取 miss。

3. 模型路由 —— 把 credit 用在刀口上

這是 Copilot 新制度下特別重要的概念。把高性能模型拿來做所有任務，就像搭計程車通勤一樣。

Copilot 可用的主要模型成本感如下（credit 消耗量以模型實際 token 單價為準）
※ 模型清單會依用戶端或方案不同而異，請以最新的 model picker 為準

模型群成本感適合的工作Gemini Flash・GPT mini 系列・Claude Haiku便宜輕量作業・例行性工作GPT-5 系列・Claude Sonnet 系列・Gemini Pro 系列中等一般開發任務GPT-5.5・Claude Opus 系列昂貴複雜設計・高難度問題解決部分使用者回報，Claude Sonnet 的倍率是舊制度的 9 倍，Opus 則是 27 倍。如果在 Pro（月 1,500 credits）方案上大量使用 Opus 系列，幾天內就會用光。

所以，首先應該把 Auto 模式當作核心。Auto 模式會根據 Copilot 即時追蹤系統健康狀況與可用性，並評估任務複雜度（推理、程式碼生成複雜度、除錯難度、工具編排需求），再自動選擇最佳模型。
雖然為了讓快取生效，通常不建議在 session 中切換模型，但 Auto 模式的設計本身會考量快取邊界來路由。從這個角度來看，Auto 模式和成本最佳化很相容。

※ Auto 會把 Opus 等高成本模型排除在路由對象之外，所以如果你想用 Opus 等模型，必須手動指定。

4. 子代理分離（防止脈絡污染）

這是一種把檔案探索、grep、執行測試等「讀取成本很高的操作」丟到另一個 context window，讓主對話保持輕量的做法。

如果在 Agent mode 中大量讀取檔案，輸入 token 會迅速累積。把調查工作委派給子代理，並且只讓它回傳摘要，就能將對主脈絡的影響降到最低。

可以這樣指示：

請調查 src/auth 底下的驗證流程，
只列出畫序列圖需要的類別與方法，
用條列式回覆即可（不需要程式碼本體）。

這樣一來，檔案探索的成本就不會算進主 session 裡。

子代理.png

手法適用情境速查表

情境主要問題建議手法DB 查詢結果、Log、JSON 太大輸入 token 過多Headroom代理說明太長輸出 token 過多Caveman Prompt同一個系統提示詞反覆送出輸入重複Prompt Caching檔案探索、調查導致脈絡膨脹脈絡污染子代理分離把 Opus 用在單純任務上模型過度使用模型路由也可以搭配使用。把 Caveman Prompt 放進系統提示詞後，額外的提示詞部分會成為快取對象，因此可以在降低額外負擔的同時，得到減少輸出的效果。