記事的撰寫大量利用了AI的輔助。
「ChatGPT為什麼這麼聰明?」你有想過這個問題嗎?
自2022年末ChatGPT登場至今約兩年時間,LLM已經融入我們的日常生活。但在幾年前,與AI進行自然對話仍然是夢想的事情。
本文將從登場順序與影響度兩方面,解釋LLM劇烈進化的5項技術創新,並深入探討每項技術為何會以及在多大程度上讓LLM變得聰明,從工程師的視角進行分析。
谷歌的論文「Attention is All You Need」中,Transformer架構首次登場。
之前的RNN/LSTM:
Transformer則通過:
如今所有的LLM(GPT、Claude、Gemini等)都是基於這個架構。沒有Transformer就沒有現代的LLM。
BERT和GPT-2的出現,確立了大規模預訓練 + 精調的範式。
實用的自然語言處理應用大幅增長。
OpenAI的研究中,模型大小、數據量、計算量與性能之間的關係被公式化。
Loss ∝ N^(-α) (N為參數數量)
這一發現使得:
為數千億參數模型鋪平了道路,提供了基於科學依據的大規模投資的可能性,無論在商業還是技術上都是至關重要的。
1750億參數的GPT-3登場(當時之大無可比擬)。
少量學習(Few-shot Learning)的證明:
例1: 犬 → dog
例2: 猫 → cat
例3: 鳥 → ?
答: bird
僅需展示例子,就可以無需精調來執行新任務。
創發性能力:
這種在小型模型中無法見到的能力,因規模的擴大而突然浮現。
「LLM真的很厲害」的時刻讓全世界意識到實際的可能性。
透過來自人類反饋的強化學習(Reinforcement Learning from Human Feedback),創造了符合人類意圖的模型。
RLHF之前:
用戶: 如何做美味的意大利麵?
模型: 意大利麵是由小麥粉製成的...(不斷定義)
RLHF之後:
用戶: 如何做美味的意大利麵?
模型: 這裡有個簡單的蒜香意大利麵食譜。
1. 把水煮沸... (實用的回答)
ChatGPT爆紅的最大原因,技術上雖然簡單,但在將LLM轉變為「可用」工具的方面具有無法估量的影響。
僅需要在提示中加入「一步步來思考」,複雜問題的正確率就得到了提升。
普通提示:
Q: 羅傑有5個球。
他購買了2罐網球,每罐有3個。
現在,羅傑有多少個球?
A: 11個
Chain-of-Thought提示:
A: 我們一步一步來思考。
一開始有5個。
購買了2罐,每罐3個,2×3=6個增加。
總數: 5+6=11個
雖然很重要,但僅有大型模型才能發揮效果,這是應用技術而非基礎技術。
即便參數數量相同,數據質量差異會導致性能大幅變化,實現更有效的學習。
這是一種能同時實現成本降低和性能提升的現實做法。
LLM的「聰明」是以下三項的結合所實現的:
若缺少任何一項,今天的LLM將無法存在。
LLM的進化才剛剛開始。
原文出處:https://qiita.com/penicillin0/items/93898ce5b688103f03f6