站長阿川 · 06月14日

Attention 負責交換，MLP 負責消化

MLP = Multi-Layer Perceptron 多層感知器

My thoughts by chatgpt

原本我以為 Transformer 裡面，每個 token vector 經過 QKV attention 之後，就會直接變成下一層的 input。現在才發現，事情不是這麼簡單。

Q、K、V 其實只是 attention 裡面的中間產物。Q 跟 K 用來算 token 之間的關聯分數，V 則是被這些分數加權混合。最後 attention 會產生一個 attention output，但這還不是完整的新 vector。

真正進入下一層之前，token vector 還會經過 MLP。也就是說，一層 Transformer 不只是「大家互相看一看」而已，而是先透過 attention 交換上下文資訊，再透過 MLP 對每個 token 自己的向量做進一步加工。

我覺得可以這樣理解：attention 像是開會，讓每個 token 去參考其他 token；MLP 像是回座位整理筆記，把剛剛吸收的資訊重新消化。每一層 Transformer，就是重複一次「交換資訊 + 消化資訊」的過程。

所以每個 token vector 並不是單純被 QKV 改寫，也不是單純被 MLP 改寫，而是經過 attention、residual connection、MLP 之後，逐層變成更成熟的新 vector。這也讓我更理解，Transformer 的智慧不是只藏在 attention 裡，MLP 其實也是非常重要的一部分。

站長阿川

⭐️ Shopify 網站開發服務（給品牌）
https://job.turn.tw/shopify-services

⭐️ 小網站開發服務（功能明確、規模不大的需求）
https://job.turn.tw/small-website-services

⭐️ 台灣 Shopify 商家交流 LINE 群（非官方）
https://line.me/ti/g2/PZ_1LILWVWWuzZQ50HNpYA-A3k6QXWF6znqoBQ

⭐️ 台灣 Shopify 開發者 LINE 群（非官方）
https://line.me/ti/g2/YUasX5K3CJ4QdIx76zppjHlh3-q8w-xkSyK1LA