🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付

我們先從一個顯而易見卻仍可能引發爭議的觀點開始:大型語言模型並非確定性系統,而是機率序列預測器。給定上下文,它們會從機率分佈中抽取下一個詞元。這就是它們的本質。它們沒有隱藏的推理引擎,沒有符號化的真值層,也沒有內在的正確性概念。

你可以影響他們的行為,你可以限制他們的行為,你可以塑造他們的行為,但你無法將機率轉化為確定性。

在主題演講、融資演示和產品演示之間,一種令人安心的說法浮現:模型越來越便宜、越來越智能,因此人工智慧很快就會變得微不足道。這種邏輯聽起來合情合理。代幣價格正在下跌。模型品質正在提高。演示看起來令人印象深刻。從表面上看,我們似乎正在邁向人工智慧成為一種成熟商品的階段。

從內部感覺卻截然不同。

好的演示和可靠的產品之間存在著巨大的鴻溝。演示通常只包含一個提示和一個模型呼叫,看起來神奇無比,也確實能吸引消費者。但產品無法做到這一點。一旦你嘗試將這種架構交付給真實用戶,現實就會迅速顯現。模型會出現幻覺,只能給出部分答案,忽略了限制條件,輸出的內容聽起來流暢,但實際上卻有細微的錯誤。而模型本身卻對此毫不知情。

這並非道德缺陷,而是設計特性。

所以,當某個元件功能強大但不可靠時,工程師就會像往常一樣,圍繞著它來建構結構。

一旦你開始重視可靠性,你的架構就不再是“呼叫LLM”,而是變成了一條管線。輸入資料經過清洗和標準化處理。生成步驟會產生一個候選答案。另一個步驟會評估該答案。路由層會決定答案是否可接受,或系統是否應該重試。有時,系統會使用修改後的提示符號重試;有時,會使用不同的模型;有時,會進行一次糾錯。只有經過這一系列循環,最終用戶才能接收訊息。

LLM 始終沒有變成確定性的。改變的是系統獲得了控制迴路。

這種區別至關重要。我們並非將機率轉化為確定性,而是透過冗餘和驗證來降低不確定性。而降低不確定性需要計算成本,計算需要資金。

這就是為什麼孤立地引用代幣價格會產生誤導。單次模型呼叫可能成本很低。但一個成熟的系統很少只使用單次呼叫。一個使用者請求可能會觸發多次模型呼叫:產生、評估、重新產生、格式化、工具呼叫、記憶體查找等等。使用者最終只會體驗到「一個結果」。後端執行的是一個小型工作流程。

代幣成本即元件成本。可靠的人工智慧是系統成本。

說「代幣很便宜,所以人工智慧也很便宜」就像說螺絲釘很便宜,所以飛機也很便宜。

這引出了一個令人不安但至關重要的事實:人工智慧的成本會以兩種截然不同的方式增加。

如果實施不當,就會造成高昂的成本,因為你會投入資金卻仍然無法獲得可靠性。你會不斷調整提示,不斷救火,不斷修補症狀,但最終都無法穩定下來。

如果實施得當,成本會很高,因為你有意為控制付費。你為評估人員付費。你為重試付費。你為可觀測性付費。你為冗餘付費。但你也會得到回報:一個行為有界、可檢查且可改進的系統。

「可靠」沒有廉價版。

另一個造成混淆的根源在於混淆了不同類型的專業知識。知名創辦人及主管擅長描繪未來圖景,他們談論市場走向和各種可能性,這是他們的職責。但他們的職責並非去排查評估器提示資訊外洩或路由閾值在負載下波動的原因。經濟上的成功並不意味著對營運的深入了解。

實際上,建構真正的人工智慧更像是分散式系統工程,而非科幻小說。你會擔心資料質量,擔心回歸問題,擔心延遲和每次請求的成本。你會設計模式,對提示訊息進行版本控制,檢查追蹤記錄,執行基準測試,調整閾值。這很慢,不光鮮亮麗,而且技術性很強。

低階邏輯模組(LLM)讓人工智慧更容易上手,但並沒有簡化嚴肅的人工智慧,而是將複雜性轉移到了系統層面。

所以當有人說「很快我們只需呼叫一個 API,一切都會正常運作」時,他們通常的意思是「很快大量的工程工作將被隱藏在這個 API 背後」。

那很好。這是進步。

但假裝可靠的人工智慧很便宜、容易實現或已經解決是誤導性的。

坦白說:LLM 是強大的機率元件。要將其轉化為可靠的產品,需要多層控制。這些控制層需要成本,但同時也創造了真正的價值。

如今,如果你不了解自己在做什麼,嚴肅的人工智慧開發成本會非常高。

如今,如果你真的想讓嚴肅的人工智慧發揮作用,那麼它的成本是相當高的。

任何兜售「廉價確定性人工智慧」的人,賣的都是一個故事,而不是一個系統。


原文出處:https://dev.to/marcosomma/llms-are-not-deterministic-and-making-them-reliable-is-expensive-in-both-the-bad-way-and-the-good-5bo4


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝20  
574
🥈
我愛JS
💬2  
7
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付