小編精選 - 技術文章翻譯 · 05月01日

真正的 Token 經濟並不是為了少花錢，而是為了把思考縮小。

我今天看到一個影片，先是讓我發笑，然後又讓我有點擔心。

這其實不算是個笑話，因為你很可能六個月後就會看到有公司這麼做。一位經理抱怨說，有個員工用的AI代幣不夠多。代幣不夠多。就好像代幣是健身追蹤器上的步數。

“蘇珊，你今天才燒了2000個代幣。你到底有沒有在工作？”

這聽起來很荒謬，但我們離那一步並不遙遠。企業已經開始透過提示次數、工具呼叫次數、輸入令牌數、輸出令牌數、使用者成本、團隊成本和工作流程成本來衡量人工智慧的採用情況。要先明確的是，我並不認為這種做法一定是錯誤。衡量令牌使用情況是有意義的。令牌代表成本，代表延遲，代表上下文。它們也記錄了人們和系統如何使用人工智慧。

問題出在我們混淆了指標和目標。我們曾經在工時統計上犯過這樣的錯誤，在關閉工單統計上犯過這樣的錯誤，在參加會議統計上犯過這樣的錯誤，在銷售線索統計上也犯過這樣的錯誤——1000個不合格的線索看起來比10次有效的溝通更有價值，因為電子表格顯示的資料非常亮眼，沒人願意用現實來破壞這種好心情來破壞這種好心情。

現在我們有可能對代幣也犯下同樣的錯誤。

代幣數量越多，並不代表工作品質越高；代幣數量越少，也不代表工作效率越高。真正有價值的資訊並非代幣數量本身，而是輸入模型的參數、模型的指令以及最終輸出結果之間的關係。我認為，真正的代幣經濟正是從這裡開始的。它並非出於對成本節約的執著追求，而是一種架構上的訊號。

代幣不僅僅是貨幣。

人們談論令牌時首先想到的就是成本，這不難理解。如果你使用託管的 LLM API，令牌就直接與金錢掛鉤。輸入令牌需要成本，輸出令牌也需要成本。更大的模型成本更高，更長的上下文成本更高，重試成本更高，錯誤的提示成本更高。糟糕的架構成本更高，但通常會在後期顯現，看起來像是可靠性問題。

因此，第一個反應是優化令牌消耗。壓縮提示訊息。概括上下文。選擇更便宜的模型。緩存響應。減少不必要的輸出。所有這些都很有用，但我認為這只是問題的淺層。

更有意思的問題不是“這項任務消耗了多少個代幣？”，而是“這些代幣代表了什麼樣的認知操作？”

因為輸入詞元和輸出詞元並非同一概念。輸入詞元通常提供上下文訊息，也就是你要求模型分析的素材。而輸出詞元通常提供生成、解釋、結構、綜合或行動資訊。如果我向模型發送 10,000 個輸入詞元，卻只得到 10 個輸出詞元，這可能很糟糕，但也可能恰到好處。

如果任務是讀取冗長的錯誤日誌並判斷故障是否由身份驗證引起，那麼簡短的輸出可能就足夠了。如果任務是判斷產品評論是正面、中性或負面，簡短的回答並非失敗，而是關鍵。如果任務是將錯誤報告路由到正確的工程隊列，我不需要長篇大論，我只需要正確的路由。

所以，高輸入低輸出不一定就是壞事。但這確實是一種訊號。我認為這種訊號值得我們給予比現在更多的關注。

平衡並不意味著對稱

我所說的代幣平衡，並非指輸入代幣和輸出代幣應該相等。那樣做是非常愚蠢的指標，而我們已經有太多愚蠢的指標試圖偽裝成管理科學了。

我所說的平衡是指輸入規模、輸出規模以及最終決策價值之間的關係。輸入規模大而輸出規模小通常意味著模型正在進行某種壓縮、分類、提取、路由、過濾、審核、評分、驗證或決策等操作。輸入規模小而輸出規模大通常意味著模型正在進行生成、擴展、解釋、草擬或構思等操作。輸入規模大而輸出規模大通常意味著模型正在進行綜合、轉換、總結、比較或多步驟推理等操作。輸入規模小而輸出規模小通常意味著模型正在進行較具體的原子任務。

這些圖案本身並無好壞之分。它們告訴你作品的形態。而有時，作品的形態本身就極具表現力。

想像一下，你發送了一條包含完整會議記錄、產品描述、使用日誌、錯誤報告、五個示例、JSON 模式、語氣指南、安全說明以及最後一句「請簡潔」的超長提示訊息（因為我們似乎很喜歡這種反諷）。然後你要求模型返回以下內容：

{
  "priority": "high"
}

也許這樣也行。也許分類確實需要所有這些背景資訊。但也許你只是造了一台認知洗衣機，結果卻只清洗了一把湯匙。

關鍵不在於詞元比例是否錯誤，而在於這個比例引發了許多疑問。這項任務真的需要所有這些上下文資訊嗎？上下文資訊能否更精確地取得？分類能否與提取分離？能否用更小的模型完成部分工作？能否用確定性規則完成部分工作？能否對最終輸出進行單獨驗證，而不是僅依賴一次大型模型呼叫？

這就是令牌指標發揮作用的地方。它不是用來記分的，而是用來診斷的。

真正的問題是認知負荷過重。

許多人工智慧工作流程成本高昂並非因為模型本身昂貴，而是因為任務設計混亂。我們要求一個模型同時執行太多任務，然後當模型表現得像一個收到八張相互矛盾的 Jira 工單的聰明實習生一樣不知所措時，我們卻表現得十分驚訝。

閱讀這份冗長的輸入。理解領域定義。提取二十個字段。規範化它們。推斷缺失值。遵循模式。應用業務規則。避免臆想。解釋你的決策。力求簡潔。確保確定性。另外，請一次性完成，因為我們只看過一次演示，現在我們認為架構應該是一個模板。

這就是問題的關鍵。一個大型提示符，一個大型模型，一個脆弱的 JSON 輸出，失敗後的重試循環。凌晨 1 點 12 分，一位惱火的工程師盯著一個格式錯誤的逗號，不禁懷疑自己當初為何要學資料結構。

問題不僅僅在於成本。真正的問題在於推理面過大。每增加一條指令，模型的自由度就會增加。每增加一條無關的上下文訊息，都會增加噪音。每增加一個輸出字段，格式漂移的機率就會增加。字段間每隱藏一個依賴關係，驗證的難度就會增加。而且，當輸出失敗時，你往往不知道原因。

上下文是否過長？指令是否含糊不清？模式是否過於複雜？任務邏輯是否過載？模型是否過於弱？模型是否過於創新？水星逆行了嗎？有時，除錯一個龐大的提示訊息就像除錯一個夢境。

因此，我認為優化單元不應該是提示訊息，而應該是認知任務。

考慮更小的規模，而不僅僅是更便宜的規模。

人們一聽到「代幣經濟」往往想到的是省錢。我認為這種想法並不全面。更準確的說法是：設計人工智慧工作流程，使每次模型呼叫都擁有盡可能小的合理認知面積。

並非最小的提示，也並非最便宜的型號，而是最小的認知介面。

當一項任務要求模型考慮一定量的上下文資訊、做出某種類型的判斷並產生某種類型的輸出時，該任務就具有認知表面。一個廣泛的認知表面類似於：讀取對話、推斷使用者的情緒狀態、偵測所有行動專案、對銷售機會進行分類、提取異議、評估緊急程度、總結通話內容、產生後續郵件，並傳回一個包含 28 個欄位的完美 JSON 物件。

那不是一個任務，而是一個小村莊。

一個更具體的認知任務有所不同。給定一段產品回饋對話，判斷使用者是否將價格列為阻礙因素。傳回 true 或 false。或者，僅從這段文字中提取下次會議日期，如果不存在則傳回 null。或者，根據已擷取的三個訊號，從低、中、高三個優先權中選擇優先權。

這些任務的輸入和輸出範圍更窄，更容易驗證，也更容易重試。它們通常可以在較小的模型上執行，有些甚至可以用確定性程式碼替代。最重要的是，它們減少了歧義。

這才是關鍵所在。最佳的令牌優化並非總是壓縮，有時最佳的令牌優化是分解。

20字段JSON問題

我們來看一個簡單的例子。假設你有一個很大的輸入文件，需要輸出一個包含 20 個值的結構化文件。現代人工智慧最常見的做法是將整個文件傳送給模型，讓它把所有內容提取到一個 JSON 物件中。然後加入一個模式，加上“不要產生幻覺”之類的限制，加上“未知值使用 null”，或許再加入三個示例，然後就只能祈禱模型能正常工作了。

有時候這招管用。有時候演示效果非常好。但正式上線後，就完全不一樣了。

這個模型漏掉了一個字段。它憑空捏造了一個值。它混用了兩個字段。它傳回了無效的 JSON。它遵循了模式，但卻把錯誤的值放在了正確的位置，更糟的是，它看起來好像是正確的。它甚至在一個字段裡解釋了自身，因為顯然 JSON 需要一些情感。

於是你增加了更多指令。然後是更嚴格的模式語言。然後是驗證。然後是重試。然後是更強大的模型。然後是更昂貴的模型。然後有人說：「也許我們應該微調一下。」現在，你原本簡單的提取流程已經變成了一個小型國家基礎設施專案。

另一種方法是提出一個枯燥但有用的問題：這 20 個價值觀實際上是一個認知任務嗎？

或許並非如此。或許有五個欄位可以直接提取。或許有三個需要分類。或許有四個取決於日期。或許有兩個需要數值歸一化。或許有六個欄位只有在滿足先前條件時才相關。在這種情況下，一個大的提示並不會更簡單。它只是把模型呼叫中的複雜性隱藏起來了。

透過以語意依賴關係對欄位進行聚類，可以得到更好的系統。例如，直接辨識碼可以歸為一組，日期和時間約束可以歸為另一組，風險指標可以歸為一組，義務和責任方可以歸為另一組。只有在上述訊號存在之後，才能建立最終的規範化摘要。

每個批次都可以使用較小的提示、較小的模式和更嚴格的驗證規則。有些批次可能不需要邏輯層模型（LLM）。有些批次可以使用正規表示式、解析器、查找表、嵌入或確定性檢查。有些批次可以使用小型本地模型。只有真正複雜的部分才需要昂貴的模型。

這就是成本節約的來源，但成本只是優勢的一部分。你還能獲得更好的可觀測性。如果最終輸出有誤，你可以檢查是哪個子任務失敗了。你可以測量字段級的準確率。你可以只重試失敗的部分。你可以在不影響其他階段的情況下，替換某個階段的模型。你可以緩存中間輸出。你可以在邊界處加入確定性驗證。

這才是真正的代幣經濟，而不是「少用代幣」。把代幣用在真正需要認知的地方。

較小的提示可以減少差異

我想謹慎使用「確定性」這個詞。即使降低溫度並限制輸出，LLM（雷射熔覆層）也並非傳統工程意義上的確定性系統，而是機率系統。但工作流程設計可以使其行為更加穩定、更易復現且更易於控制。

目標更明確、任務更短的指令通常會降低模型的自由度。如果模型只有一個任務、輸出空間很小、模式嚴格，那麼出錯的可能性就比較小。但如果模型有二十個任務、大量的輸入、相互衝突的指令、隱式依賴關係以及複雜的模式，那麼當它偶爾表現得像個鬧鬼的電子表格時，你就不應該感到驚訝了。

這就是任務分解能夠提高一致性的原因。並非因為少量呼叫就能神奇地使模型具有確定性，而是因為少量呼叫使得模型周圍的系統更容易控制。輸出空間更窄，驗證更簡單，重試邏輯成本更低，故障模式更容易分類，模型選擇更靈活，提示也更容易測試。

編曲也變得清晰明了。

最後一點至關重要。當所有操作都在同一個提示框內完成時，整個過程是不可見的。而當工作被拆分成多個階段時，整個過程就變得可視了。這便是寄望模型能夠正確思考和設計一個每一步都可觀察的系統之間的區別。

OrKa 在這其中扮演什麼角色呢？

這就是我開發OrKa的原因之一，OrKa 是一個用於 AI 代理和推理工作流程的編排框架。 OrKa 的重點並非「因為代理商很酷所以要用更多代理商」。說實話，如果增加代理反而讓你的系統更難理解，那麼恭喜你，你已經製造出了分散式混亂。

重點不同。要明確認知工作。定義流程。將推理分解成更小的單元。分配任務。記錄執行過程。驗證輸出。控制記憶體和上下文。讓系統可檢查，而不是對著一大堆提示祈禱。

在這種觀點下，LLM 並非應用程式本身，而是系統中的元件。 LLM 有時會進行資料擷取，有時會進行資料分類，有時會進行資料重寫，有時會進行資料評估，有時則根本不需要呼叫它。編排層決定了各個元件之間的工作流程。

這就是代幣制經濟如何演變為架構的地方。你不再只考慮如何將提示訊息減少20%，而是要問哪個認知步驟真正需要這種脈絡。

這個問題改變了一切。也許第一次模型呼叫只需要用戶訊息。也許第二次只需要相關的日誌片段。也許第三次只需要提取三個字段。也許最後的格式化程式根本不需要模型。如果你把完整的上下文資訊傳遞給每一步，你就不是在設計人工智慧系統，而是在複製整個世界，然後讓模型去找發票號碼。

或許有效，但這並非策略。

令牌指標應該引發問題

那麼團隊該如何使用令牌指標呢？不是用來監控生產力，也不是用來羞辱使用過多或過少代幣的人，更不是用來做排行榜，讓獲得最多提示的人贏得某種不祥的辦公室獎盃。

令牌指標應該會引發工程方面的問題。

當輸入標記數量極高而輸出標記數量極低時，應考慮任務是有意壓縮還是意外過載。當輸出標記數量極高時，應考慮模型是否產生了有用的結構，還是只是產生了代價高昂的模糊資料。當同一上下文在多次呼叫中重複傳送時，應考慮檢索、快取或狀態傳遞是否可以減少重複。當使用大型模型進行簡單的萃取時，應考慮使用較小的模型或確定性規則是否可行。當重試消耗大量標記時，應考慮模式、驗證或任務邊界是否有錯誤。

但這並不代表拆分任務就一定更好。如果你將相同的 10,000 個 token 輸入發送 20 次以提取 20 個字段，那麼你可能會增加系統的成本並降低速度。你並沒有建構架構，而只是建構了一個非常複雜的方法來複製上下文。

將分解與上下文縮小結合，就能達到最佳效果。只需提取一次相關片段。重用中間狀態。對共享依賴關係的欄位進行聚類。僅路由必要的上下文。在本地進行驗證。盡可能使用更小的模型。如果程式碼可以完成任務，就不要呼叫模型。

這並非反對LLMs，而是支持體制。

一個簡單的心理模型

我一直遵循的思維模型是這樣的：輸入令牌代表注意力預算，輸出令牌代表承諾面。

輸入越多，模型需要關注的資訊就越多。輸出請求越多，模型出現偏差的機會就越多。當注意力預算和承諾面與實際認知任務相符時，工作流程就會更加穩定。

如果模型只需要對某個事物進行分類，就不要要求它同時對複雜物件進行概括、提取、解釋、規範化和格式化。如果模型需要產生較長的答案，就不要用無關的上下文資訊堆砌它，以免增加雜訊。如果模型需要提取結構化字段，就不要假設所有字段都屬於同一次呼叫。如果模型需要做出決策，請明確定義決策邊界。

目標不是減少令牌數量，而是減少不必要的認知。

這種區別至關重要。有些任務需要投入大量資源。一篇篇幅較長的研究綜述可能需要大量的背景資訊。一份技術事件概要可能需要仔細保留原始資料。產品對比可能需要大量的輸入和輸出。多文件比較也可能確實成本高昂。

問題不在於花費代幣本身，而是花費代幣時卻不知道自己買的是什麼。

這也是模型選擇問題。

一旦認知任務被拆分，模型選擇就變得更有意思了。在單提示架構中，通常會選擇你能負擔得起的最強大的模型，因為任務本身就很複雜。模型必須處理所有事情：讀取冗長的上下文、推理、提取、格式化、驗證以及消除歧義。

但如果將工作流程拆分，就可以為每個認知步驟選擇合適的模型。小型模型可以進行簡單的分類。局部模型可以提取顯而易見的欄位。確定性解析器可以規範化日期。規則引擎可以驗證約束條件。更強大的模型可以處理真正意義上的歧義推理。

這就是經濟模式轉變的地方。並非因為你懇求題目縮短，而是因為你改變了作品的形式。原本昂貴的模式變成了專業化模式，而不是垃圾掩埋場。

我知道「垃圾掩埋場」這個詞聽起來很刺耳。但如今許多人工智慧系統確實如此。它們把所有上下文資訊一股腦兒地堆放在一起，指望最大的模型能將其轉化為有用的訊息。這種方法出奇地有效，而這正是危險之處。它足以讓你發布演示版，但一旦在生產環境中失效，就會給你帶來沉重的打擊。

代幣經濟即可觀測性

成熟的人工智慧系統不僅應該記錄最終結果，還應該記錄工作流程的令牌結構。

哪個步驟消耗的輸入最多？哪個步驟產生的輸出最多？哪個步驟重試次數最多？哪個步驟的模式失敗次數最多？哪個步驟需要最強大的模型？哪個步驟可以快取？哪個步驟可以用程式碼取代？哪個步驟真正改善了最終決策？

這不是會計核算，這是可觀察性。

您不僅在追蹤支出，還在追蹤系統內部的認知壓力。輸入令牌數量的突然增加可能意味著您的檢索引入了太多的上下文資訊。輸出令牌數量的突然增加可能意味著模型開始解釋而非建構結構。高重試成本可能意味著您的模式過於複雜或提示訊息含糊不清。低價值決策的高代幣成本可能意味著工作流程需要分解。低令牌成本但品質差可能意味著您壓縮了必要的上下文資訊。

再說一遍，指標本身並不是答案。指標只是訊號。工程師仍然需要判斷，這非常不方便。我們被承諾過自動化，但現在我們仍然需要思考。真令人失望。

錯誤的未來

錯誤的未來很容易想像。團隊獲得人工智慧儀表板。管理者可以看到每位員工的代幣使用情況。人們被鼓勵「更多地使用人工智慧」。代幣消耗量成為採用人工智慧的證明。由於儀錶板會獎勵活躍用戶，員工學會產生更多提示。每個人看起來都很有效率，成本上升，但品質卻沒有提升。

然後領導層宣布了一項人工智慧效率提升計劃。現在每個人都必須減少令牌使用量。人們開始使用更短的提示。品質下降了。沒人知道原因。於是又建立了一個新的儀錶板。一位顧問出現了。一切又周而復始。

這就是指標本身成為目標時會發生的情況。單憑令牌使用量幾乎無法說明任何品質問題。一位優秀的工程師可能使用較少的令牌，因為他們正確地分解了問題。另一位優秀的工程師可能使用較多的令牌，因為任務確實需要上下文資訊。糟糕的工作流程可能使用少量令牌，但產生無用的結果。優秀的工作流程可能使用大量令牌，但產生高價值的決策。

所以，衡量代幣數量本身並沒有錯。但僅憑代幣數量來判斷工作量是錯誤的。