🔧 阿川の電商水電行

Shopify 顧問、維護與客製化

💡

小任務 / 單次支援方案

單次處理 Shopify 修正／微調

⭐️

維護方案

每月 Shopify 技術支援 + 小修改 + 諮詢

🚀

專案建置

Shopify 功能導入、培訓 + 分階段交付

👉 瞭解詳情 / 免費諮詢

小編精選 - 技術文章翻譯 · 10月09日

揭秘LLMs為何突然變得更聰明：五項創新及其影響

記事的撰寫大量利用了AI的輔助。

從技術史探討LLM突變聰明的原因 - 5項創新與其影響

介紹

「ChatGPT為什麼這麼聰明？」你有想過這個問題嗎？

自2022年末ChatGPT登場至今約兩年時間，LLM已經融入我們的日常生活。但在幾年前，與AI進行自然對話仍然是夢想的事情。

本文將從登場順序與影響度兩方面，解釋LLM劇烈進化的5項技術創新，並深入探討每項技術為何會以及在多大程度上讓LLM變得聰明，從工程師的視角進行分析。

TL;DR

Transformer（2017）: 所有基礎 [影響度: ★★★★★]
擴展法則（2020）: 「越大越強」的發現 [影響度: ★★★★★]
GPT-3（2020）: 創發性能力的證明 [影響度: ★★★★★]
RLHF（2022）: 商業化的關鍵 [影響度: ★★★★★]
Chain-of-Thought（2022）: 推理能力的提升 [影響度: ★★★]

2017年: Transformer - 一切始於此

發生了什麼

谷歌的論文「Attention is All You Need」中，Transformer架構首次登場。

為何具有創新性

之前的RNN/LSTM：

按順序處理序列（難以並行化）
對長距依賴學習不佳
學習需要耗費時間

Transformer則通過：

自注意力機制一次計算所有標記間的關係
支持並行處理（與GPU的兼容性極佳）
在長文本中也不易失去信息

影響度: ★★★★★

如今所有的LLM（GPT、Claude、Gemini等）都是基於這個架構。沒有Transformer就沒有現代的LLM。

2018-2019年: 確立預訓練

發生了什麼

BERT和GPT-2的出現，確立了大規模預訓練 + 精調的範式。

為何重要

透過無監督數據獲得基礎的語言理解
使得任務專門化的學習可以在少量數據下實現
證明轉移學習的威力

影響度: ★★★★

實用的自然語言處理應用大幅增長。

2020年: 擴展法則 - 「大小是正義」的發現

發生了什麼

OpenAI的研究中，模型大小、數據量、計算量與性能之間的關係被公式化。

為何是遊戲改變者

Loss ∝ N^(-α)  (N為參數數量)

這一發現使得：

性能的提升可以預測
大規模投資的根據產生
「不斷擴大」的戰略得以展開

影響度: ★★★★★

為數千億參數模型鋪平了道路，提供了基於科學依據的大規模投資的可能性，無論在商業還是技術上都是至關重要的。

2020年: GPT-3 - 創發性能力的衝擊

發生了什麼

1750億參數的GPT-3登場（當時之大無可比擬）。

為何如此衝擊

少量學習（Few-shot Learning）的證明：

例1: 犬 → dog
例2: 猫 → cat
例3: 鳥 → ?
答: bird

僅需展示例子，就可以無需精調來執行新任務。

創發性能力：

簡單的算數
程式碼生成
邏輯推理

這種在小型模型中無法見到的能力，因規模的擴大而突然浮現。

影響度: ★★★★★

「LLM真的很厲害」的時刻讓全世界意識到實際的可能性。

2022年: RLHF - 商業化的關鍵

發生了什麼

透過來自人類反饋的強化學習（Reinforcement Learning from Human Feedback），創造了符合人類意圖的模型。

技術原理

透過監督學習建立基礎模型
人類對多個輸出進行排序
學習獎勵模型
通過強化學習優化模型

為何具有創新性

RLHF之前：

用戶: 如何做美味的意大利麵？
模型: 意大利麵是由小麥粉製成的...（不斷定義）

RLHF之後：

用戶: 如何做美味的意大利麵？
模型: 這裡有個簡單的蒜香意大利麵食譜。
1. 把水煮沸... （實用的回答）

影響度: ★★★★★

ChatGPT爆紅的最大原因，技術上雖然簡單，但在將LLM轉變為「可用」工具的方面具有無法估量的影響。

2022年: Chain-of-Thought - 推理能力的提升

發生了什麼

僅需要在提示中加入「一步步來思考」，複雜問題的正確率就得到了提升。

例子

普通提示：

Q: 羅傑有5個球。
   他購買了2罐網球，每罐有3個。
   現在，羅傑有多少個球？
A: 11個

Chain-of-Thought提示：

A: 我們一步一步來思考。
   一開始有5個。
   購買了2罐，每罐3個，2×3=6個增加。
   總數: 5+6=11個

影響度: ★★★

雖然很重要，但僅有大型模型才能發揮效果，這是應用技術而非基礎技術。

2023年以後: 數據品質革命

發生了什麼

量向質的轉變
合成數據的運用（利用AI生成的數據進行學習）
高度數據過濾

為何重要

即便參數數量相同，數據質量差異會導致性能大幅變化，實現更有效的學習。

影響度: ★★★★

這是一種能同時實現成本降低和性能提升的現實做法。

結論: 三項基礎技術的結合實現了LLM的聰明

LLM的「聰明」是以下三項的結合所實現的：

Transformer - 技術基礎
擴展法則 - 漸進的方向
RLHF - 商業化的關鍵

若缺少任何一項，今天的LLM將無法存在。

未來展望

多模態: 不僅限於文本，還整合圖像、音頻、影片
高效化: 更小、更快、更便宜
長文脈: 處理數百萬標記
推理時間的利用: 更深入地「思考」AI

LLM的進化才剛剛開始。

參考文獻

Vaswani et al. (2017) "Attention is All You Need"
Brown et al. (2020) "Language Models are Few-Shot Learners" (GPT-3)
Kaplan et al. (2020) "Scaling Laws for Neural Language Models"
Ouyang et al. (2022) "Training language models to follow instructions with human feedback" (InstructGPT)
Wei et al. (2022) "Chain-of-Thought Prompting"

原文出處：https://qiita.com/penicillin0/items/93898ce5b688103f03f6