OpenAI 今天預告了o3模型——「推理」模型的進一步發展,也是o1的後繼者。
它在ARC-AGI-1 基準測試上的改進給我留下了深刻的印象,ARC-AGI-1基準測試被認為是當代LLMs無可比擬的基準測試。 o1 的最高分是 32%,而 o3 的得分則高達 88%。 Arc Challenge(擊敗 ARC-AGI 獎勵 100 萬美元)的作者非常有信心基於 Transformer 的模型不會在他們的基準測試中取得成功 - 他們對 o1 印像不深。然而, o3 的部落格文章卻用「令人驚訝」、「新穎」、「突破」等字表達了完全不同的情緒。但有一個問題 - 它非常非常昂貴:得分 76% 的成本約為 9,000 美元,88% - OpenAI 沒有透露(考慮到使用了 172 倍以上的計算量,可以評估總成本為 150 萬美元)。
o3 讓我想起了討論LLMs時常提到的一個類比。無論任務的複雜性如何,GPT 對每個令牌都使用相同數量的計算/時間,就好像它們從潛意識中串流訊息而無需停下來思考一樣。這類似於人腦「快速」系統 1 的運作方式。
快速回顧一下,《快與慢思考》是 Daniel Kahneman 於 2011 年出版的一本書。他認為,從功能上(基於實證研究)我們的大腦有兩個部門(或模式):
系統 1,快速 - 輕鬆、自主、聯想。
系統2,慢-努力、深思熟慮、合乎邏輯。
這兩個系統協同工作並塑造人類的思考過程。我們可以毫無壓力地大聲朗讀一本書,但我們可能一個字都不記得。我們讀完書後可以集中註意力,不斷地在腦海中回放場景和畫面,記錄事件和時間線,短時間後就會疲憊不堪,但我們可能會獲得新的知識。
正如吳恩達(Andrew Ng)曾經指出的那樣,“嘗試在不按退格鍵的情況下輸入文本” - 似乎是一項艱鉅的任務,而這就是LLMs的工作方式。
嗯,直到最近他們都是這樣工作的。當o1(以及後來的Deepseek R1、QwQ、Gemini 2.0 Flash Thinking)出現時,模型學會了突破並以類似於「慢速」系統的模式執行。
最近有很多關於LLM預訓練停滯不前、訓練資料耗盡、AI開發碰壁的討論。
我們可能會看到2025 年的趨勢正在形成中——將推理/思維模型與傳統LLMs相結合,將它們作為慢思維和快思維互連起來:規劃(慢)和採取行動(快)、辨識(快)和評估(慢) ETC。
這是 Aider AI 編碼助手的最新範例之一,它展示瞭如何將QwQ 作為架構師和Qwen 2.5 作為編碼器相結合(有一個兩步「架構師-程式碼」模式,允許為每個步驟選擇不同的模型)如何提高編碼效能。
它是否會發揮作用 - 很難說。即使對於慢速模型,我們最近也沒有看到很多進展,但仍然存在許多挑戰。目前尚不清楚 o3 等模型如何耐受幻覺。上下文視窗仍然太小。價格正在上漲......緩慢的模型雖然達到了不同「孤立」評估的下一個水平,但距離大規模的實際應用還很遠(自己做大型專案或模擬初級實習生)。此外,《快速》模型、演員似乎在 電腦使用方面沒有取得進展,而莫拉維克悖論在電腦職員自動化方面仍然是一個挑戰。
PS>
大約在 o3 發布的同時,我獲得了對 o1-mini 的 API 存取權。我執行了自己的LLM Chess Eval ,它模擬了國際象棋遊戲,提示模型與隨機玩家對弈。雖然以前的 SOTA 模型甚至無法取得一次勝利(我假設基準測試與 ARC 評估一樣難)... o1-mini 贏得了 30% 的機會!現在我不再那麼懷疑了,畢竟可能有一些推理。
原文出處:https://dev.to/maximsaplin/openai-o3-thinking-fast-and-slow-2g79