MLP = Multi-Layer Perceptron 多層感知器
原本我以為 Transformer 裡面,每個 token vector 經過 QKV attention 之後,就會直接變成下一層的 input。現在才發現,事情不是這麼簡單。
Q、K、V 其實只是 attention 裡面的中間產物。Q 跟 K 用來算 token 之間的關聯分數,V 則是被這些分數加權混合。最後 attention 會產生一個 attention output,但這還不是完整的新 vector。
真正進入下一層之前,token vector 還會經過 MLP。也就是說,一層 Transformer 不只是「大家互相看一看」而已,而是先透過 attention 交換上下文資訊,再透過 MLP 對每個 token 自己的向量做進一步加工。
我覺得可以這樣理解:attention 像是開會,讓每個 token 去參考其他 token;MLP 像是回座位整理筆記,把剛剛吸收的資訊重新消化。每一層 Transformer,就是重複一次「交換資訊 + 消化資訊」的過程。
所以每個 token vector 並不是單純被 QKV 改寫,也不是單純被 MLP 改寫,而是經過 attention、residual connection、MLP 之後,逐層變成更成熟的新 vector。這也讓我更理解,Transformer 的智慧不是只藏在 attention 裡,MLP 其實也是非常重要的一部分。