我打造了一個用我自己的 X 書籤和喜歡專案訓練的 bot。大約有 5 萬則,這些內容是我多年來在網路上潛水、爭論,以及看到讓我忍不住停下來不滑的東西時按下儲存按鈕,一點一滴累積下來的。

技術上並不複雜。你先匯出資料,把文字做嵌入,建立一條 RAG 流程,再加上一個從你自己寫作模式推導出的風格提示,就能得到一個會先擷取你最相關的已儲存內容,再據此延伸回應提示的系統。我把它叫做 Bookmark Brain,這名字要嘛很聰明,要嘛很尷尬——我還沒決定。

我沒預料到的是,這件事會多大程度地釐清我對生成式 AI 到底是什麼的思考。


這個 bot 太好用了。問題就在這裡。

當我問它關於 API 設計的看法,或是對當前 AI 熱潮週期的評價時,它回出來的內容聽起來很像我——具體、帶點不耐煩、立足於一組特定關切——比大多數通用 LLM 在我下提示「用我的口吻寫」時還要像。差別不在模型,而在檢索層。兩種情況下,模型做的其實都是差不多的事。改變的是,它在開始生成之前檢索到了什麼。

這個領悟比我預期的還要震撼:我們所謂 AI「智慧」的很大一部分,其實是檢索。系統找出相關內容,把它和查詢混合,然後產生一段由嵌入空間中特定鄰域所塑造的輸出。它不是在思考,也不是在理解。它更像是一種帶有記憶的超級進化版自動完成。推理的幻覺來自被檢索內容的品質,而不是某種深層意義上的推論真的在發生。

接下來更讓人不舒服的是:我開始在自己身上注意到同樣的事。很多我一直稱為原創思考的東西,其實是我的大腦在做結構上相似的事情——從一個經過篩選的內部影響資料集裡檢索、以我覺得新穎的方式組合,然後輸出到足以被當成洞見的流暢程度。這個 bot 沒有讓我覺得自己更聰明,反而讓我開始懷疑自己的認知。

我的 bot 之所以聽起來連貫,是因為我的書籤本身就連貫。我多年來一直在策展一套特定世界觀——對科技炒作保持懷疑、對系統與誘因感興趣、對空泛抽象感到厭煩。這套世界觀已經寫進資料集裡了。檢索把它找出來。模型把它組成語法正確的句子。從外面看,整件事就像是智慧。


然後 Granta 那件事發生了。

如果你沒跟到:文學雜誌 Granta 發表了一篇被 AI 偵測器標記的文章。結果發現,那篇文章其實是人寫的,而且比那些偵測器本身還早。它是在 2022 年之前寫成的,早於他們拿來評估的工具被發明出來。

作者理所當然地很憤怒。編輯部的回應也處理得很拙劣。真正讓我在意的是整個流程背後那種自信——彷彿一個偵測分數就足以構成任何有意義的證據。

其實並不是。AI 偵測器只是根據人類與 AI 寫作在分布上的差異所訓練出的機率分類器。密集、正式或風格特殊的散文常常會把它們弄得誤判連連。學術寫作、翻譯文本、任何壓縮過或結構化風格的文字——這些全都可能被標記。偵測器不是在閱讀,而是在做統計特徵的模式比對。而且這些特徵會隨著模型進步、寫作風格演變、訓練分布與當下現實之間的落差擴大而改變。

看著出版機構、雇主和大學把這些工具當成可靠依據,就像在依賴測謊儀一樣。這工具偵測的不是欺瞞,而是緊張、正式,或是在當下語境裡不對勁的語氣。結論根本不是工具以為的那樣。

Granta 這件事讓我具體意識到:我們集體都有一個問題,就是把訊號誤認成它理應衡量的那個東西。困惑度分數不等於真實性。語意相似不等於理解。而這種混淆,也正是大多數 AI 能力宣稱被過度膨脹的原因。


這就是我每天都在承受的諷刺。

我大量使用 AI。我拿它來開發、拿它來寫作、因為它而更快做出原型。我不是一邊裝作懷疑、一邊偷偷依賴它——我是真的在公開依賴它,同時也真心懷疑它到底在做什麼,以及為什麼圍繞它的那些說法總是如此過度自信。

是的,我也是問題的一部分。我知道。但我之所以打造 Bookmark Brain,正是因為我想弄清楚問題真正是什麼——不是停留在觀點文章或評論的層次,而是到檢索紀錄、嵌入距離,以及為什麼某個輸出會以那種方式出現的層次。對 AI 最有信心的人——不管是布道者還是批評者——通常都是那些從未真正拿它做過什麼的人。他們只是在回應輸出。我想看的是管線本身。

我的 bot 以一種很具體的方式把這件事變得可見。因為我能精準看到它在做什麼——檢索、組合、風格對齊——我再也不能假裝底層流程是神祕的。它不是。它就是一個非常強大的模式引擎。而它擅長的那些模式,正是人類已經做過足夠多次、足以形成可檢索訊號的東西。

而它做不到的事也同樣清楚。它不能真正告訴我什麼新東西。它無法解決我書籤裡的矛盾;它只會檢索出在語意上更接近我查詢內容的那一邊。它對我最在意什麼沒有持續性的感知——那存在於嵌入權重和檢索排序裡,而不是某種價值結構中。如果我五年來儲存了大量關於奈及利亞經濟政策的內容,它就能把那些內容找出來。但它無法告訴我,對一個尚未存在於那些嵌入中的新發展,我應該怎麼想。

這不是批評,只是對這工具的準確描述。真正該被批評的是,當人們——老實說,包括過去的我在內——把這些系統講得像是在完全不同層級運作時的那種說法。


大多數人一開始對生成式 AI 的誤解都一樣。他們看到輸出,然後把它對應到人類認知,因為這是唯一可參照的框架。輸出聽起來像在思考,所以它就是思考。這個邏輯可以理解,但錯了。

實際上比較接近的是:系統已將大量既有人類表達壓縮成一個表徵,檢索出語境上最相關的部分,然後生成一段在統計上與那個鄰域相一致的延續。這不代表一無是處。事實上,這很了不起。但它不是推理,不是理解,而且在訓練分布與實際問題不一致的領域裡,絕對不可靠。

打造 Bookmark Brain 讓這件事從抽象變成具體。我可以看檢索紀錄。我可以看到它抓了什麼。我可以追溯為什麼某個回應會那樣生成。這種透明性——只有因為我自己做了這個系統才有——正是人們使用封閉系統並把輸出擬人化時所缺少的。


我到現在還在反覆思考的一點,是關於策展。

我的 bot 之所以有用,是因為我多年來非常仔細地做了篩選。輸出的品質是由輸入品質決定的後果——不是模型,不是提示工程,而是輸入。5 萬則書籤反映出一套一致的關切、一個可辨識的世界觀、真實的觀點。

如果我不加區分地什麼都存,這個 bot 就會變得不連貫。垃圾進,垃圾出,但規模更大,而且流暢得讓垃圾更難被看穿。

這就是廣義上生成式 AI 的問題:它不會把壞資料變好,只會把它變得流暢。而流暢性正是讓人們——包括偵測器、包括審稿人、包括那些本該更懂的人——難以評估眼前到底是什麼的關鍵特徵。

我打造了一個聽起來像我的工具。它之所以能運作,是因為我放進去的內容,而不是因為模型本身做了什麼特別了不起的事。模型只是個編曲者;資料集才是作者。

這是我學到最有啟發性的一件事。也是幾乎所有關於這些系統的討論最常搞錯的地方。


原文出處:https://dev.to/dannwaneri/what-building-my-own-ai-bot-taught-me-about-generative-ai-57il


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝12   💬4   ❤️1
476
🥈
alicec
📝1   ❤️2
88
#4
我愛JS
💬1  
3
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
📢 贊助商廣告 · 我要刊登