🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付

記事的撰寫大量利用了AI的輔助。

從技術史探討LLM突變聰明的原因 - 5項創新與其影響

介紹

「ChatGPT為什麼這麼聰明?」你有想過這個問題嗎?

自2022年末ChatGPT登場至今約兩年時間,LLM已經融入我們的日常生活。但在幾年前,與AI進行自然對話仍然是夢想的事情。

本文將從登場順序與影響度兩方面,解釋LLM劇烈進化的5項技術創新,並深入探討每項技術為何會以及在多大程度上讓LLM變得聰明,從工程師的視角進行分析。

TL;DR

  • Transformer(2017): 所有基礎 [影響度: ★★★★★]
  • 擴展法則(2020): 「越大越強」的發現 [影響度: ★★★★★]
  • GPT-3(2020): 創發性能力的證明 [影響度: ★★★★★]
  • RLHF(2022): 商業化的關鍵 [影響度: ★★★★★]
  • Chain-of-Thought(2022): 推理能力的提升 [影響度: ★★★]

2017年: Transformer - 一切始於此

發生了什麼

谷歌的論文「Attention is All You Need」中,Transformer架構首次登場。

為何具有創新性

之前的RNN/LSTM:

  • 按順序處理序列(難以並行化)
  • 對長距依賴學習不佳
  • 學習需要耗費時間

Transformer則通過:

  • 自注意力機制一次計算所有標記間的關係
  • 支持並行處理(與GPU的兼容性極佳)
  • 在長文本中也不易失去信息

影響度: ★★★★★

如今所有的LLM(GPT、Claude、Gemini等)都是基於這個架構。沒有Transformer就沒有現代的LLM


2018-2019年: 確立預訓練

發生了什麼

BERT和GPT-2的出現,確立了大規模預訓練 + 精調的範式。

為何重要

  • 透過無監督數據獲得基礎的語言理解
  • 使得任務專門化的學習可以在少量數據下實現
  • 證明轉移學習的威力

影響度: ★★★★

實用的自然語言處理應用大幅增長。


2020年: 擴展法則 - 「大小是正義」的發現

發生了什麼

OpenAI的研究中,模型大小、數據量、計算量與性能之間的關係被公式化

為何是遊戲改變者

Loss ∝ N^(-α)  (N為參數數量)

這一發現使得:

  • 性能的提升可以預測
  • 大規模投資的根據產生
  • 「不斷擴大」的戰略得以展開

影響度: ★★★★★

為數千億參數模型鋪平了道路,提供了基於科學依據的大規模投資的可能性,無論在商業還是技術上都是至關重要的。


2020年: GPT-3 - 創發性能力的衝擊

發生了什麼

1750億參數的GPT-3登場(當時之大無可比擬)。

為何如此衝擊

少量學習(Few-shot Learning)的證明:

例1: 犬 → dog
例2: 猫 → cat
例3: 鳥 → ?
答: bird

僅需展示例子,就可以無需精調來執行新任務。

創發性能力

  • 簡單的算數
  • 程式碼生成
  • 邏輯推理

這種在小型模型中無法見到的能力,因規模的擴大而突然浮現。

影響度: ★★★★★

「LLM真的很厲害」的時刻讓全世界意識到實際的可能性。


2022年: RLHF - 商業化的關鍵

發生了什麼

透過來自人類反饋的強化學習(Reinforcement Learning from Human Feedback),創造了符合人類意圖的模型。

技術原理

  1. 透過監督學習建立基礎模型
  2. 人類對多個輸出進行排序
  3. 學習獎勵模型
  4. 通過強化學習優化模型

為何具有創新性

RLHF之前:

用戶: 如何做美味的意大利麵?
模型: 意大利麵是由小麥粉製成的...(不斷定義)

RLHF之後:

用戶: 如何做美味的意大利麵?
模型: 這裡有個簡單的蒜香意大利麵食譜。
1. 把水煮沸... (實用的回答)

影響度: ★★★★★

ChatGPT爆紅的最大原因,技術上雖然簡單,但在將LLM轉變為「可用」工具的方面具有無法估量的影響。


2022年: Chain-of-Thought - 推理能力的提升

發生了什麼

僅需要在提示中加入「一步步來思考」,複雜問題的正確率就得到了提升。

例子

普通提示:

Q: 羅傑有5個球。
   他購買了2罐網球,每罐有3個。
   現在,羅傑有多少個球?
A: 11個

Chain-of-Thought提示:

A: 我們一步一步來思考。
   一開始有5個。
   購買了2罐,每罐3個,2×3=6個增加。
   總數: 5+6=11個

影響度: ★★★

雖然很重要,但僅有大型模型才能發揮效果,這是應用技術而非基礎技術。


2023年以後: 數據品質革命

發生了什麼

  • 量向質的轉變
  • 合成數據的運用(利用AI生成的數據進行學習)
  • 高度數據過濾

為何重要

即便參數數量相同,數據質量差異會導致性能大幅變化,實現更有效的學習。

影響度: ★★★★

這是一種能同時實現成本降低和性能提升的現實做法。


結論: 三項基礎技術的結合實現了LLM的聰明

LLM的「聰明」是以下三項的結合所實現的:

  1. Transformer - 技術基礎
  2. 擴展法則 - 漸進的方向
  3. RLHF - 商業化的關鍵

若缺少任何一項,今天的LLM將無法存在。

未來展望

  • 多模態: 不僅限於文本,還整合圖像、音頻、影片
  • 高效化: 更小、更快、更便宜
  • 長文脈: 處理數百萬標記
  • 推理時間的利用: 更深入地「思考」AI

LLM的進化才剛剛開始。

參考文獻

  • Vaswani et al. (2017) "Attention is All You Need"
  • Brown et al. (2020) "Language Models are Few-Shot Learners" (GPT-3)
  • Kaplan et al. (2020) "Scaling Laws for Neural Language Models"
  • Ouyang et al. (2022) "Training language models to follow instructions with human feedback" (InstructGPT)
  • Wei et al. (2022) "Chain-of-Thought Prompting"

原文出處:https://qiita.com/penicillin0/items/93898ce5b688103f03f6


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝22   💬9   ❤️5
707
🥈
我愛JS
📝4   💬14   ❤️7
257
🥉
御魂
💬1  
3
#5
2
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付