MLP = Multi-Layer Perceptron 多層感知器

My thoughts by chatgpt

原本我以為 Transformer 裡面,每個 token vector 經過 QKV attention 之後,就會直接變成下一層的 input。現在才發現,事情不是這麼簡單。

Q、K、V 其實只是 attention 裡面的中間產物。Q 跟 K 用來算 token 之間的關聯分數,V 則是被這些分數加權混合。最後 attention 會產生一個 attention output,但這還不是完整的新 vector。

真正進入下一層之前,token vector 還會經過 MLP。也就是說,一層 Transformer 不只是「大家互相看一看」而已,而是先透過 attention 交換上下文資訊,再透過 MLP 對每個 token 自己的向量做進一步加工。

我覺得可以這樣理解:attention 像是開會,讓每個 token 去參考其他 token;MLP 像是回座位整理筆記,把剛剛吸收的資訊重新消化。每一層 Transformer,就是重複一次「交換資訊 + 消化資訊」的過程。

所以每個 token vector 並不是單純被 QKV 改寫,也不是單純被 MLP 改寫,而是經過 attention、residual connection、MLP 之後,逐層變成更成熟的新 vector。這也讓我更理解,Transformer 的智慧不是只藏在 attention 裡,MLP 其實也是非常重要的一部分。


⭐️ Shopify 網站開發服務(給品牌)
https://job.turn.tw/shopify-services

⭐️ 小網站開發服務(功能明確、規模不大的需求)
https://job.turn.tw/small-website-services

⭐️ 台灣 Shopify 商家交流 LINE 群(非官方)
https://line.me/ti/g2/PZ_1LILWVWWuzZQ50HNpYA-A3k6QXWF6znqoBQ

⭐️ 台灣 Shopify 開發者 LINE 群(非官方)
https://line.me/ti/g2/YUasX5K3CJ4QdIx76zppjHlh3-q8w-xkSyK1LA

共有 0 則留言


⭐️ Shopify 網站開發服務(給品牌)
https://job.turn.tw/shopify-services

⭐️ 小網站開發服務(功能明確、規模不大的需求)
https://job.turn.tw/small-website-services

⭐️ 台灣 Shopify 商家交流 LINE 群(非官方)
https://line.me/ti/g2/PZ_1LILWVWWuzZQ50HNpYA-A3k6QXWF6znqoBQ

⭐️ 台灣 Shopify 開發者 LINE 群(非官方)
https://line.me/ti/g2/YUasX5K3CJ4QdIx76zppjHlh3-q8w-xkSyK1LA
🏆 本月排行榜
🥇
站長阿川
📝12  
414
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次