https://poloclub.github.io/transformer-explainer/ 看了一下早期的 gpt tokenier https://github.com/kaisugi/gpt4_vocab_list/tree/main 有關中文的部分也少少的 鳥鳥的 但...
# My thoughts by chatgpt 每個 token 都會先被轉成一個向量。這個向量可能有 768 維、4096 維,甚至更大。也就是說,一個 token 本質上就是一串很多很多數字。 進入 self-attention 的時候,這個 token vector 會再被轉成三...
# My thoughts by chatgpt 每個 token vector 會被轉成 Q、K、V 三種向量。 Q 可以理解成「我想找什麼」。 K 是「我有什麼特徵可以被匹配」。 V 是「我真正提供的內容」。 那 attention 的下一步,就是讓每個 token 的 Q...
今天釐清了一個很容易混淆的地方:GPT-2 small 裡的 12,可能同時指 12 layers,也可能指 12 heads,但這兩個意思完全不同。 Layer 是模型的深度。GPT-2 small 有 12 層 Transformer block,意思是 token vector 會像走流...
MLP = Multi-Layer Perceptron 多層感知器 # My thoughts by chatgpt 原本我以為 Transformer 裡面,每個 token vector 經過 QKV attention 之後,就會直接變成下一層的 input。現在才發現,事情不是...