My thoughts by chatgpt

每個 token 都會先被轉成一個向量。這個向量可能有 768 維、4096 維,甚至更大。也就是說,一個 token 本質上就是一串很多很多數字。

進入 self-attention 的時候,這個 token vector 會再被轉成三種向量:Q、K、V。

Q 是 Query,可以理解成「我想找什麼資訊」。
K 是 Key,可以理解成「我有什麼特徵可以被別人找到」。
V 是 Value,可以理解成「我真正要提供出去的內容」。

這三個東西不是人工寫死的規則,而是靠三組可訓練的矩陣產生出來的。也就是:

Q = token vector × Wq
K = token vector × Wk
V = token vector × Wv

一開始我看到 [768, 768] 以為是不是乘完會變成兩個數字,後來才懂,這其實是矩陣的形狀:768 行、768 列。意思是它可以把一個 768 維向量,轉成另一個 768 維向量。

所以 GPT-2 small 裡面,一個 token vector 原本是 768 個數字,乘上 Wq 之後,會得到 768 個數字的 Q vector;乘上 Wk 得到 K vector;乘上 Wv 得到 V vector。


⭐️ Shopify 網站開發服務(給品牌)
https://job.turn.tw/shopify-services

⭐️ 小網站開發服務(功能明確、規模不大的需求)
https://job.turn.tw/small-website-services

⭐️ 台灣 Shopify 商家交流 LINE 群(非官方)
https://line.me/ti/g2/PZ_1LILWVWWuzZQ50HNpYA-A3k6QXWF6znqoBQ

⭐️ 台灣 Shopify 開發者 LINE 群(非官方)
https://line.me/ti/g2/YUasX5K3CJ4QdIx76zppjHlh3-q8w-xkSyK1LA

共有 0 則留言


⭐️ Shopify 網站開發服務(給品牌)
https://job.turn.tw/shopify-services

⭐️ 小網站開發服務(功能明確、規模不大的需求)
https://job.turn.tw/small-website-services

⭐️ 台灣 Shopify 商家交流 LINE 群(非官方)
https://line.me/ti/g2/PZ_1LILWVWWuzZQ50HNpYA-A3k6QXWF6znqoBQ

⭐️ 台灣 Shopify 開發者 LINE 群(非官方)
https://line.me/ti/g2/YUasX5K3CJ4QdIx76zppjHlh3-q8w-xkSyK1LA
🏆 本月排行榜
🥇
站長阿川
📝12  
414
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次