🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付

前言:「震驚!震驚!」

2026年2月28日,計算機科學界傳來了一陣小小的震撼。

Donald Knuth(唐納德·克努斯)發布了一篇新的論文。標題為「Claude的循環」。開頭的話是這樣的。

"震驚!震驚!"

87歲的Knuth被迫改變了他對AI的看法。這篇記錄他所經歷的短文在Hacker News上獲得了500分以上的評分,並累積了200條以上的評論,引起了廣泛的討論。

發生了什麼事情?這篇文章將以簡單的方式解釋,使沒有專業知識的人也能理解。

Donald Knuth是誰

首先,讓我們來解釋「為什麼這個人的發言如此重要」。

Donald Knuth被稱為編程界的「神」。他於1938年出生,是斯坦福大學的名譽教授。他的代表作《計算機程序設計的藝術》(通稱TAOCP)是一部自1960年代以來持續撰寫的七卷大作,被譽為計算機科學的聖經。

比爾·蓋茲曾經這樣說。

「如果你能讀完這本書,請務必把你的履歷寄給我」

Knuth除了在計算機科學領域內享有盛譽之外,還是排版軟體TeX的開發者。幾乎所有撰寫學術論文的研究者都受益於TeX。

而Knuth對於AI一直保持著謹慎的態度。他的立場是「大規模語言模型本質上並不具備智慧」。

如今,他卻寫下了「震驚」。這正是這篇論文引人注目的最大原因。

發生了什麼 — 三行總結

  1. Knuth將他數週無法解決的數學問題提交給他的朋友—Claude Opus 4.6。
  2. Claude在約1小時內,以31個步驟找到了答案。
  3. Knuth承認「似乎我需要重新審視對AI的看法」。

問題是什麼

接下來,我們將不使用專業術語來解釋這個問題。

用比喻來理解

想像一個三維的棋盤。

有m個縱向、m個橫向和m個高度的格子點立體排列。如果m=5,則可以想象有125個點懸浮在空間中。

每個點都有三個方向的一條單行道延伸出去。這條道路總共有3 x m³條。

問題: 這些單行道是否可以恰好分成3條「巡迴路徑」?

「巡迴路徑」意指經過所有點一次,再返回到出發點的路徑。在數學術語中稱為「哈密頓閉路」。

沒有道路的遺漏或重複,恰好分成3條路徑。這是整個問題的全貌。

難點在哪

當m=3(27個點)時,Knuth曾手動求解。然而尋找「任意的m」,即「適用於任何數字的普遍法則」卻是困難的。

隨著m的增大,點的數量和道路的數量都會爆炸性增加。當m=10,則會有1,000個點和3,000條路。用暴力法嘗試所有可能的組合,對於超級計算機來說也是不切實際的。

所需要的不是計算能力,而是數學的洞察力——洞悉模式,並展示其始終成立的構造法。

這個問題曾是Knuth的巨作TAOCP即將出版的未解決問題之一。他耗費數週時間仍無法找到突破口。

Claude是如何解答的

Knuth的朋友Filip Stappers將這個問題直接輸入Claude Opus 4.6。

從這時起,約1小時的探索開始了。有趣的是,這一過程與人類研究者的試錯過程驚人地相似。

第一階段:暴力嘗試(第1〜10步)

Claude首先編寫程式並使用暴力解決方案。「不妨試試看」是他的做法。在小的案例上成功運行,但未能得出普遍法則。

第二階段:尋找模式(第11〜20步)

接著Claude想出了他所稱的「蛇形模式」。他試圖找出立體格子呈蛇形巡迴的規律。這看起來很有希望,但並未能覆蓋所有情況。

他還嘗試了模擬退火(統計優化方法)。儘管能找到個別的解決方案,卻無法用於一般性的規則構造。

轉折點:自我判斷(第25步)

這是一個最值得注意的時刻。

Claude得出這樣的結論。

「模擬退火能找到個別解決方案,但獲得一般的構造法卻需要純粹的數學」

這正如人類研究者在遇到瓶頸時所做的「根本改變方法的判斷」。AI意識到「自己的方法有限」,並切換了策略。

更進一步,Claude重新將這個問題認知為「凱利有向圖」。這是群論(代數的一個分支)的概念。即「這個問題更適合用代數的框架來思考」,觸及了跨領域的思考。

發現的瞬間(第30〜31步)

在第30步中,Claude回顧了過去的探索結果,找到了一個結構性模式。

在第31步中,它發現了一個根據s = (i + j + k) mod m的條件分支規則。這是對於所有奇數m有效的一般構造法

檢驗與證明

Stappers的檢驗

Stappers執行了Claude生成的Python程式,測試了所有奇數m=3, 5, 7, ..., 101。所有測試皆正常運行。

Knuth的證明

此時人類與AI的角色分工變得明確。

Claude找到了「可行解」,但無法數學上證明「為什麼這始終是正確的」

Knuth則寫下了嚴謹的數學證明,確保「對於所有奇數m,Claude的構造法確實給出了哈密頓閉路的分解」,他以人類數學家的身份保證這一結果。

760種解

Knuth進一步進行了深入分析。在m=3的情況下,他徹底調查後發現存在11,502條哈密頓閉路,其中符合條件的分解則有4,554種。而其中可以概括的(適用於所有奇數m的)則恰好有760種

Claude找到的正是這760種解之一。這不僅是「運氣好」,而是系統性地發現了結構上正確的解的證據。

偶數問題仍未解決

奇數案例的問題已經清楚解決。然而對於偶數(m=4, 6, 8, ...)的情況又如何呢?

當Stappers繼續請Claude處理偶數案例時,Claude卻遇到了瓶頸。隨著會議時間的延長,程式的質量下降,最終甚至無法寫出正確的程式。

這真實地顯示了AI目前的極限。上下文窗口(AI一次能處理的信息量)有上限,探索時間的延長會導致性能劣化。

偶數案例的解決至今仍是一個未解問題。

為什麼這很重要

1. 「計算速度快」根本不同

AI快速地進行大量計算已不再令人驚訝。這一次Claude所做的以下過程才是重點。

  • 自發地嘗試多種方法
  • 從失敗中學習並改變方針
  • 自我判斷「暴力法不行」
  • 引入另一個數學領域的概念
  • 最後發現未知的構造法

這應該稱作「研究」,而非單純的「計算」。傳統上被認為是「只有人類研究者才能做到的」領域,AI已經開始進入。

2. 發言者的權威不同

「AI很厲害」的文章每天都有。但這次的發言者卻是Donald Knuth。這位在計算機科學基礎上耕耘超過半個世紀的人,目睹了AI解決他自己無法解決的問題。

結尾的話顯得意味深長。

"看來我得在某天重新審視對生成AI的看法。"
(似乎該改變我對生成AI的看法了)

這實際上是AI懷疑派的最高權威宣布的轉變宣言。

3. 人類+AI的新分工模型

此次案例並不是「AI取代人類」的故事。各自的角色分工非常清晰。

角色 負責
定義問題 人類(Knuth)
引導AI走在正確的方向 人類(Stappers)
探索與發現解 AI(Claude)
證明解的正確性 人類(Knuth)

AI發現了解,人類負責驗證和證明。人類與AI在數學研究中的合作模型,首次由世界頂尖的研究者正式記錄下來。

看到的極限

為了公平起見,我們還要梳理在此次案例中顯現出的極限。

Claude能做到的事情

  • 系統地嘗試多種方法
  • 從失敗中改變方針
  • 跨領域思考重新表述問題
  • 發現未知的構造法

Claude無法做到的事情

  • 數學上證明發現的解「為什麼是正確的」
  • 解決偶數案例(隨著長時間的會議性能下降)
  • 在沒有人的引導下,自發性地處理這個問題

換句話說,並不是「AI單獨解決數學問題的時代即將來臨」。而是「如果人類能夠正確使用AI,它就能成為數學發現的夥伴」的事實被證明出來了。

Knuth的話

最後,引用Knuth在論文中留下的兩句話。

開頭。

"震驚!震驚!"

以及對於發現喜悅的表達。

"知道我的猜想有一個美好的解決方案,以及慶祝自動推理和創造性問題解決的這項驚人進步,真是令人愉悅。"
(除了知道我的猜測有漂亮的解答的喜悅之外,能夠慶祝這一自動推理和創造性問題解決的劇烈進步更是讓我高興)

87歲的巨匠懷抱著知識的好奇心,接受了AI的力量。他的這種態度或許是這篇論文最具價值的部分。

參考資料

  • Donald Knuth "Claude的循環"(原論文)
  • Hacker News討論(499點,217條評論)
  • "唐納德·克努斯的30年問題——由AI解決"(Substack解釋)
  • "計算機科學教父唐納德·克努斯表示,一個AI解決了一個他陷入數週困境的數學問題"(Boingboing)

原文出處:https://qiita.com/nogataka/items/ecbaedb3d7ffc29c9fb2


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝26   💬2  
760
🥈
我愛JS
💬5  
16
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付