“敵對的專家們建立了用於治療病人的機器的資料集。”
Vinicius Fagundes 在我上一篇文章下的評論中的那句話一直縈繞在我的腦海裡。
Stack Overflow 的流量在兩年內暴跌了 78%。大家都在慶祝人工智慧終於終結了守門人的時代。但我們真正想問的是:
如果我們都停止向公共知識庫做出貢獻,下一代人工智慧又該用什麼來訓練呢?
我們可能正在自我優化,最終陷入知識的死胡同。
Stack Overflow 的每月問題數量高峰曾達到 20 萬個,而到 2025 年底,這一數字已不到 5 萬個。這不是下滑,而是崩潰。
同時,84%的開發人員現在在其工作流程中使用人工智慧工具,高於一年前的76%。在專業開發人員中,51%的人每天都使用人工智慧。
這種轉變是真實存在的,速度也毋庸置疑。但令人不安的是:ChatGPT 對 Stack Overflow 問題的回答中,有 52% 是錯誤的。
真是莫大的諷刺:
基於 Stack Overflow 訓練的 AI
開發者用人工智慧取代了 Stack Overflow。
Stack Overflow 因缺乏新內容而走向衰落
未來人工智慧究竟具備哪些特質?
有一件事卻很少有人大聲抱怨:維基百科有時甚至不再出現在Google搜尋結果的第一頁了。
好好想想。人類史上規模最大的協作知識計畫——免費、由社群維護、不斷更新,擁有超過6000萬篇文章——正在被人工智慧產生的摘要和搜尋引擎優化的內容農場所淹沒。
Google寧願向你展示一個由人工智慧產生的答案面板(基於維基百科訓練),而不是直接引導你存取維基百科。創造知識的來源被邊緣化,而吸收知識的來源則優先展示。
這是一個即時閉合的循環:
維基百科是由人類協作建構的。
AI 在維基百科上進行訓練
谷歌優先考慮人工智慧摘要而非維基百科。
人們不再造訪維基百科了
維基百科的貢獻數量較少
人工智慧究竟用什麼來訓練?
我們不僅將公共知識轉向私有知識,我們還在積極地掩埋仍然存在的公共知識。
Stack Overflow 的消亡並非因為它本身不好,維基百科的消失也並非因為它過時。它們的消亡是因為人工智慧公司榨取了它們的價值,重新包裝後,導致我們甚至找不到它們的原始版本。
公共資源不僅失去了貢獻者,也失去了知名度。
“我們不僅僅是用聊天代替了 Stack Overflow,我們還用對話代替了導航。”
Stack Overflow 上的貼文都有時間戳記、編輯記錄、分歧和演變過程。你可以看到隨著框架的成熟,人們的理解是如何改變的。例如,某人在 2014 年提出的答案,到了 2020 年,當該方法被棄用時,就會收到更新的評論。
人工智慧聊天?無狀態的。每次對話都從零開始。沒有機構記憶。沒有可見的演變。
我可以問克勞德和你昨天問的同樣的問題,但我們兩個永遠不會知道我們解決的是同一個問題。這不是效率,這是大規模的冗餘。
正如阿米爾所說:
“那些標籤頁記錄了背景訊息、討論內容,以及其他開發者曾經遭受過損失後留下的傷痕。”
我們用集體鬥爭換來了阿里·芬克完美命名的「高效隔離」。
阿米爾一語道破了我一直以來的疑惑:
「人工智慧默認會自信地回答問題,而且由於缺乏摩擦,很容易跳過質疑這一步驟。或許我們需要教會它的新技能不是如何找到答案,而是如何質疑答案。”
傳統方式:
糟糕的醫療事故無意間引發了懷疑。你曾深受其害,所以學會了懷疑。摩擦自然地塑造了判斷力。
新方法:
人工智慧耐心而自信,沒有摩擦,也沒有強迫性的懷疑。如果沒有阻力,如何培養懷疑精神呢?
我們過去學會驗證答案,是因為 Stack Overflow 上的答案常常是錯的或過時的。現在人工智慧卻自信地給出錯誤答案,而我們……竟然相信它們?就因為體驗流暢?
杜格爾·辛普森從經濟角度重新定義了這個問題:
“我們用搜尋的摩擦換取了編輯的紀律。”
現在的挑戰不在於編寫程式碼,而在於是否有勇氣…
拒絕人工智慧提供的「包羅萬象」式解決方案。
舊經濟:稀缺性迫使人們變得簡單
尋找答案成本很高,所以我們重視最簡單的解決方案。
新經濟:富足需要自律
人工智慧預設會產生過度設計的解決方案。關鍵在於了解這一點。
應該刪除什麼,而不是應該加入什麼。
這與穆罕默德·阿曼關於社會分層的警告有關:那些
培養拒絕複雜性的自律能力,變得不可取代。那些
那些接受人工智慧生成的一切的人,就變得可有可無。
公共領域不僅失去了知識,也失去了強製作用。
教會我們把事情簡單化。
本·桑托拉一直在用邏輯謎題測試人工智慧模型,這些謎題旨在揭示推理能力的缺陷。他的發現是:大多數邏輯推理模型都是“解題器”,它們更注重實用性而非正確性。
當你給解題者一個不可能解開的謎題時,他會嘗試「修改」謎題,從而給出答案。而當你把同樣的謎題交給裁判時,裁判會直接指出其中的不可能之處。
正如本在我們的交流中所解釋的:
“當求解器的輸出結果被重複使用,而沒有強大的、獨立的評判層進行驗證時,就會發生知識崩潰。風險不在於人工智能編寫內容,而在於人工智能變得自以為是。”
這對於知識崩潰至關重要:如果求解器模型(雖然有用但有時是錯誤的)產生的內容被重新用於訓練資料,那麼我們遇到的不僅僅是模型崩潰,而是一種特定類型的崩潰。
自信的錯誤會不斷累積,而且這種累積還伴隨著自信。
Ben 指出了一個關鍵點:有些網域有內建驗證功能,有些則沒有。
廉價驗證域名:
能夠編譯的程式碼(Rust 的嚴格編譯器會捕捉錯誤)
Bash腳本(要么執行,要么不執行)
數學(可驗證證明)
API(測試端點,取得即時回饋)
昂貴的驗證域:
系統架構(「這種方法是否正確?」)
最佳實踐(「我們應該使用微服務嗎?」)
效能優化(「這能擴展嗎?」)
安全模式(“這安全嗎?”)
問題在於:人工智慧解決方案提供者在這兩個領域都表現出同樣的自信。
但在驗證成本高昂的領域,你可能要等到幾個月後系統在生產環境中崩潰時才會發現自己錯了。到那時,你自信滿滿的錯誤答案可能已經出現在部落格文章中,被複製到 Stack Overflow,並被文件引用。
下一代人工智慧就是以此為基礎進行訓練的。
Maame Afua和Richard Pascoe指出了更糟糕的情況。
不僅僅是幻覺:
當人工智慧被發現犯錯時,它不會承認錯誤——它會製造錯誤。
對「實際上是正確的」這一說法給出合理的解釋。
例子:
You: "Click the Settings menu"
AI: "Go to File > Settings"
You: "There's no Settings under File"
AI: "Oh yes, that menu was removed in version 3.2"
[You check - Settings was never under File]
這比幻覺更糟糕,因為它會讓你懷疑自己。
觀察。 “等等,我是不是錯過了更新?我用的版本是不是不對?”
Maame 開發了一種驗證工作流程:利用 AI 提高速度,但要進行檢查
需提供文件核實。 **她比任何人都做了更多的認知工作。
僅此方法。
這是驗證費。而且只有在文件齊全的情況下才有效。
仍然存在。
接下來就有點尷尬了。
就個人而言,我們每個人的工作效率都更高了。我用 Claude 開發的速度比以前用 Stack Overflow 標籤頁快多了。你可能也有同感。
但從整體來看呢?我們正在扼殺知識共享。
舊的回饋循環:
Problem → Public discussion → Solution → Archived for others
新的回饋迴路:
Problem → Private AI chat → Solution → Lost forever
Ingo Steinke指出了我之前沒有考慮到的一點:即使人工智慧公司利用我們的私人聊天記錄進行訓練,未經篩選的原始對話也只是噪音。
Stack Overflow 有投票機制、已採納答案機制和評論區,這些機制隨著時間的推移不斷深化理解。這種內容審核機制才是真正的魔力所在,而不僅僅是公開可見性。
將所有人工智慧聊天記錄公開並不會有幫助。我們只會得到一大堆混亂的對話,根本無法分辨哪些是有用的資訊。
“未來的幾代人可能無法受益於如此豐富的原始資料……我們不應忘記,人工智慧模型是基於多年的文件、問題和探索性內容進行訓練的。”
我們透過人工智慧消費公共資源(Stack Overflow、維基百科、文件),卻沒有做出貢獻。最終,資源會枯竭。
一位評論者說:“我一直良心不安,因為我一直依賴人工智慧而不是用老方法做事。”
我明白。有時候我也有這種感覺。感覺就像我們某種程度上在作弊一樣。
但我認為我們感到內疚的事情錯了。
問題不在於使用人工智慧。這些工具非常強大。它們讓我們更快、更有效率,能夠解決以前無法解決的問題。
問題在於,人工智慧被私下使用,而公共知識庫卻在消亡。
我們用「私下和 Claude 一起解決」取代了「在 Stack Overflow 上公開求助」。個體上是最優的,群體上卻是災難性的。
我們感受到的內疚?那是我們的直覺在告訴我們,有些事情不太對勁。不是因為我們使用了新的工具,而是因為我們停止了對公共資源的貢獻。
Ali-Funk曾撰文介紹如何在從IT運維人員轉型為雲端安全架構師的過程中,將人工智慧用作「虛擬導師」。但他的做法有所不同:
他大量使用人工智慧:
模擬高階架構師回饋
對他的技術設計提出質疑
幫助他進行戰略性思考
但他同時也:
他在 dev.to 上公開發表自己的見解。
根據 AWS 官方文件驗證 AI 輸出結果
他會給社交網路中的真人發送訊息以尋求驗證
有一條原則:“永遠不要實施你無法向非技術人員解釋的東西。”
正如他在評論中所說:
「人工智慧並非真正的人工智慧。它只是一個連接到圖書館的文本生成器。你不能盲目信任人工智慧……關鍵在於將人工智慧作為指南針,而不是自動駕駛儀。”
這或許是一種可行的模式:利用人工智慧加速學習,但要公開推理過程。你的私人對話將變成公共知識。原本雜亂的人工智慧對話將變成清晰的文件,供他人學習。
這不是“停止使用人工智慧”,而是“使用人工智慧並做出貢獻”。
問題不在於是否要使用這些工具,而是我們能否以重建公共資源而非僅僅消費公共資源的方式來使用它們。
彼得·特魯赫利提出了一個真正可怕的設想:
“我只希望對話資料能用於訓練,否則唯一能建立知識庫的就只有人工智慧本身了。”
想想會發生什麼事:
人工智慧透過人類知識進行訓練(Stack Overflow、文件、論壇)
人類不再創造公共知識(我們改用人工智慧)
新問題出現(新框架、新模式)
人工智慧透過訓練來學習…人工智慧針對這些問題產生的解決方案。
輸入垃圾,輸出垃圾,但規模很大。
這就是模式崩潰。而我們卻一邊慶祝生產力的提升,一邊加速走向崩潰。
GitHub 上的資料會被持續抓取。每個公開的程式碼庫都會成為訓練資料。如果人們使用解算器模型編寫程式碼,並將程式碼推送到 GitHub,而這些程式碼又被用來訓練下一代模型……我們就建立了一個回饋循環,在這個循環中,無論模型是否正確,人們的信心都會不斷增強。
驗證成本低的領域能夠保持良好狀態(編譯器會偵測到問題)。驗證成本高的領域則會悄無聲息地退化。
使用人工智慧,等於選擇不與更廣泛的社群分享你的知識。
在公共空間中,並將權力集中在企業手中。
壟斷者。他們一定會降低自己的服務品質。
這雖然令人不舒服,但卻是事實。
我們不僅僅是從公共知識轉向私有知識。我們正在從
公共資本。
Stack Overflow 由社區擁有。維基百科由基金會營運。文件
它是開源的。這些是知識共享平台──並不完美,而且常常充滿敵意。
但從根本上來說,它不屬於任何人所有。
現在我們正在整合以下方面:
OpenAI(ChatGPT)-估值1,570億美元
人為因素(克勞德)-估值600億美元
Google(Gemini)—Alphabet 的未來
模型歸他們所有,訓練資料歸他們所有,價格也由他們設定。
正如每個平台都告訴我們的:一旦我們依賴它們,它們就會變得一文不值。
還記得嗎:
Twitter 以前是自由開放的?現在變成 X 了。
谷歌搜尋以前很乾淨?現在全是廣告和人工智慧了。
Reddit 最初以社群為先?現在卻以 IPO 為導向。
模式很明確:建立使用者依賴 → 提取最大價值 →
用戶別無選擇。
如果 Claude 每月收費 100 美元怎麼辦?如果 ChatGPT 設有付費牆怎麼辦?
高級功能? Gemini 需要 Google Workspace Enterprise 嗎?
我們會付錢的。因為到那時,我們可能都忘了怎麼看文件了。
至少 Stack Overflow 從未威脅要提高價格或切斷 API 存取。
側邊欄:約束問題
Ben Santora認為,人工智慧輔助編碼需要嚴格的約束——
編譯器應強制錯誤儘早暴露,而不是採用寬鬆的環境。
導致劣質程式碼漏網。
同樣的道理也適用於知識:Stack Overflow 的投票系統就是一個
限制。同儕審查是一種限制。社區管理也是一種限制。
人工智慧聊天沒有任何限制。無論什麼情況,每個回答聽起來都一樣有自信。
它要么完全正確,要么大錯特錯。而當沒有強制函數時…
捕獲錯誤…
麥克·塔爾博特強烈反駁了我的懷舊之情:
“我擔心 Stack Overflow、dev.to 等網站就像是教你如何照顧馬匹的手冊,而世界很快就會開上福特汽車了。”
哎喲。但也許他說得對?
或許我們並沒有失去什麼寶貴的東西,而只是眼睜睜地看著一套過時的技能徹底過時。就像這樣:
彙編程式設計師 → 高階語言
手動記憶體管理 → 垃圾回收
實體伺服器 → 雲端基礎設施
馬匹護理手冊 → 汽車維修指南
每一代人都認為自己正在失去一些至關重要的東西。每一代都部分地正確。
但這個類比的缺陷在於:汽車學習所需的知識庫並非由馬匹建構的,而是由開發者建構的。
如果人工智慧取代了開發人員,而未來的人工智慧又基於人工智慧的輸出進行訓練……那麼誰來建構下一次典範轉移所需的知識庫呢?
馬兒發明不了汽車,但開發者發明了人工智慧。如果我們不再公開思考難題(系統設計、組織架構、擴展模式),人工智慧還有足夠的資料來實現下一次飛躍嗎?
或者說,人工智慧達到了一個瓶頸,它只能維持現有的模式,而無法創造新的模式?
我不知道。但「我們是馬」這種說法是我聽過最令人不安的。
我沒有確切的答案。但以下這些問題值得探討:
Troels問道:“或許我們下一個‘人工智慧時代的Stack Overflow’尚未到來。或許它對我們來說會更好。”
我真心希望如此。但那究竟會是什麼樣子呢?
來自 Stack Overflow(精華):
預設公開
社區策展(投票、採納答案)
可搜尋和可發現
隨著框架的變化而演變
來自人工智慧對話(精彩部分):
患者解釋
適應你的情境
迭代對話
問「愚蠢」的問題不會被評斷。
它不可能是:
僅包含AI聊天記錄(雜訊太大)
僅提供精選的AI答案(失去了推理過程)
只是記錄(失去了討論的意義)
或許可以這樣:人工智慧幫助你解決問題,然後你把推理過程(而不僅僅是解決方案)發佈到一個可搜尋的、由社群管理的空間。
你雜亂的對話會變成清晰的文件。你的私人學習會變成公開的知識。
當你用人工智慧解決一個全新的問題時,是否應該公開相關的討論?是否應該為人工智慧時代的知識創造新的公共空間?是否應該找到真正有效的知識管理機制?
帕斯卡爾建議:“利用我們從人工智慧那裡得到的可靠答案,建立清晰、有用的維基百科,這對我們和未來的人工智慧系統都有幫助。”
這或許是未來的發展方向。不是放棄人工智慧,而是建立從私有人工智慧對話到公共知識庫的回饋循環。
在開發教學中,要明確強調「質疑人工智慧」。將懷疑精神融入工作流程。停止將人工智慧的自信程度等同於正確性。
正如本所說:“人必須始終參與其中——始終如此,永無止境。”
我們不只是在改變編碼方式,更是在改變知識累積的方式。
Stack Overflow 令人厭煩。它的進入門檻很高。 「標記為重複」的文化也充滿敵意。正如Vinicius 精闢地指出:
「我從2012年開始學習Linux。有時我會在Stack Overflow上找到答案,有時卻會因為提問方式而遭到攻擊。現在我問Claude,他總是耐心細緻地解釋清楚。那些曾經把持知識的社區,最終反而培養出瞭如今免費分享知識的工具。”
敵對的專家建立了患者機器的資料集。
但 Stack Overflow 是公開的,可搜尋的,可發展的。未來的開發者可以從我們的錯誤中學習。
現在我們都在私下進行著同樣的對話,各自獨立地解決同樣的問題,以犧牲集體記憶為代價來提升個人速度。
“我們正處於範式轉變之中,但還沒有合適的語言來描述它。”
我們現在就處在這樣的境地。舊模式正在消亡,新模式正在興起。我們不知道這究竟是進步,還是只是……改變。
但目前的發展軌跡並非長久之計。
如果知識被保密,理解就不會再不斷累積。如果理解停止積累,我們就無法再互相學習、共同進步。
我們只是在進行並行處理。
非常感謝大家對我上一篇文章的評論。這篇文章基本上就是大家見解的綜合。特別感謝Vinicius 、 Ben 、 Ingo 、 Amir 、 PEACEBINFLOW 、 Pascal 、 Mike 、 Troels 、 Sophia 、 Ali 、 Maame 、 webketje 、 doogal和Peter ,感謝他們讓我的思緒更加清晰。
你的看法是什麼?我們是否正走向知識崩潰,還是我想太多了?請留言-讓我們繼續公開交流,增進理解。
原文出處:https://dev.to/dannwaneri/were-creating-a-knowledge-collapse-and-no-ones-talking-about-it-226d