🔴 訂閱 YT 頻道！站長每週分享心得！ ➡️ YT 頻道 ➡️ LINE 社群 ➡️ DC 社群

transformer 學習筆記

transformer 學習筆記

站長阿川 · 06月14日

想說學一下 LLM 基礎知識 tokenizer

https://poloclub.github.io/transformer-explainer/ 看了一下早期的 gpt tokenier https://github.com/kaisugi/gpt4_vocab_list/tree/main 有關中文的部分也少少的鳥鳥的但...

0個讚 0留言 563瀏覽

站長阿川 · 06月14日

LLM 裡的 QKV：原來就是三張超大的參數表

# My thoughts by chatgpt 每個 token 都會先被轉成一個向量。這個向量可能有 768 維、4096 維，甚至更大。也就是說，一個 token 本質上就是一串很多很多數字。進入 self-attention 的時候，這個 token vector 會再被轉成三...

0個讚 0留言 410瀏覽

站長阿川 · 06月14日

Attention：原來就是矩陣相乘、轉比例、混合資訊

# My thoughts by chatgpt 每個 token vector 會被轉成 Q、K、V 三種向量。 Q 可以理解成「我想找什麼」。 K 是「我有什麼特徵可以被匹配」。 V 是「我真正提供的內容」。那 attention 的下一步，就是讓每個 token 的 Q...

0個讚 0留言 419瀏覽

站長阿川 · 06月14日

Transformer 裡的 Head 和 Layer

今天釐清了一個很容易混淆的地方：GPT-2 small 裡的 12，可能同時指 12 layers，也可能指 12 heads，但這兩個意思完全不同。 Layer 是模型的深度。GPT-2 small 有 12 層 Transformer block，意思是 token vector 會像走流...

0個讚 0留言 406瀏覽

站長阿川 · 06月14日

Attention 負責交換，MLP 負責消化

MLP = Multi-Layer Perceptron 多層感知器 # My thoughts by chatgpt 原本我以為 Transformer 裡面，每個 token vector 經過 QKV attention 之後，就會直接變成下一層的 input。現在才發現，事情不是...

0個讚 0留言 414瀏覽

站長阿川 · 06月15日

Attention Output 與 MLP 心得

# My thoughts by chatgpt 我原本以為 attention 算完關聯分數之後，就差不多可以直接進到下一層了。後來才發現，真正的流程比這更細緻。在 self-attention 裡，每個 token 會先透過不同的矩陣變成 Q、K、V： ```text X ...

0個讚 0留言 420瀏覽

站長阿川 · 06月15日

Output Logit 與最後一個 Token

## My thoughts by chatgpt 今天理解到 GPT 產生下一個 token 的最後階段，叫做 output logit。一開始我以為 Transformer 裡面既然是 token 彼此互看，那最後應該是整串 token 一起拿去預測下一個 token。可是後來才搞...

0個讚 0留言 417瀏覽

站長阿川 · 06月15日

從 output logits 到 sampling

# My thoughts by chatgpt 這一段我終於比較理解 LLM 最後「生出下一個 token」的流程了。模型真正困難的部分，其實是在前面：整段輸入經過 embedding、attention、MLP、很多層 transformer 之後，最後算出一組 output lo...

0個讚 0留言 400瀏覽

站長阿川 · 06月15日

Transformer block 裡比較「工程輔助」但非常重要的東西

這三個是 Transformer block 裡比較「工程輔助」但非常重要的東西。 ``` 原本的 token vector ↓ LayerNorm ↓ Self-Attention ↓ Residual Connection ↓ LayerNorm ↓...

0個讚 0留言 406瀏覽

熱門搜尋： java CLI Rust CRUD electron Next.JS id rails CI mac AR async 謝謝 Github wEB 討論 Ai 寫程式工作ＣＳ MCP React typescript ai JAVA git re Openai GIT ar work godot imgur RWD TypeScript Dockerfile RAG dockerfile apache JavaScript PYTHON Facebook Node JS Hook web 前端系列工程師 docker 主機效率 log 自學網頁の嬰兒教材： Php json android 部署 Promise COM .NET GitHub 設計 vscode webhook 乾淨 windsurf 開發 python Git for JavaScript 系列 flutter JavaScript系列 PHP 入門 javasc 從頭開始寫簡單的程式語言 react 分析學習技術 next.js javascript AI 作為 CSS 搜尋 LA ai 代理 html hooks Next 後端 JS 訓練 Go local express Claude Code LLM Claude code jav

Taiwan ・ Japan ・ Korea

CodeLove 愛寫扣論壇 © 2026

🛡️ 隱私及網站安全：本站註冊過程「不須提供任何個資」，只要 E-Mail 與帳密即可註冊，請安心註冊！線上付款過程使用「綠界科技 ECPay 」第三方專業金流廠商，全程在「綠界科技 ECPay 」網站進行付款程序，本站「不會紀錄任何信用卡資訊」，請放心付款、解鎖課程！您隨時可以透過 FB 粉專或者 Email 聯絡站長，請求刪除網站上的個人資料。

‹ › ×