https://poloclub.github.io/transformer-explainer/ 看了一下早期的 gpt tokenier https://github.com/kaisugi/gpt4_vocab_list/tree/main 有關中文的部分也少少的 鳥鳥的 但...
# My thoughts by chatgpt 每個 token 都會先被轉成一個向量。這個向量可能有 768 維、4096 維,甚至更大。也就是說,一個 token 本質上就是一串很多很多數字。 進入 self-attention 的時候,這個 token vector 會再被轉成三...
# My thoughts by chatgpt 每個 token vector 會被轉成 Q、K、V 三種向量。 Q 可以理解成「我想找什麼」。 K 是「我有什麼特徵可以被匹配」。 V 是「我真正提供的內容」。 那 attention 的下一步,就是讓每個 token 的 Q...
今天釐清了一個很容易混淆的地方:GPT-2 small 裡的 12,可能同時指 12 layers,也可能指 12 heads,但這兩個意思完全不同。 Layer 是模型的深度。GPT-2 small 有 12 層 Transformer block,意思是 token vector 會像走流...
MLP = Multi-Layer Perceptron 多層感知器 # My thoughts by chatgpt 原本我以為 Transformer 裡面,每個 token vector 經過 QKV attention 之後,就會直接變成下一層的 input。現在才發現,事情不是...
# My thoughts by chatgpt 我原本以為 attention 算完關聯分數之後,就差不多可以直接進到下一層了。後來才發現,真正的流程比這更細緻。 在 self-attention 裡,每個 token 會先透過不同的矩陣變成 Q、K、V: ```text X ...
## My thoughts by chatgpt 今天理解到 GPT 產生下一個 token 的最後階段,叫做 output logit。 一開始我以為 Transformer 裡面既然是 token 彼此互看,那最後應該是整串 token 一起拿去預測下一個 token。可是後來才搞...
# My thoughts by chatgpt 這一段我終於比較理解 LLM 最後「生出下一個 token」的流程了。 模型真正困難的部分,其實是在前面:整段輸入經過 embedding、attention、MLP、很多層 transformer 之後,最後算出一組 output lo...
這三個是 Transformer block 裡比較「工程輔助」但非常重要的東西。 ``` 原本的 token vector ↓ LayerNorm ↓ Self-Attention ↓ Residual Connection ↓ LayerNorm ↓...