CodeLove 愛寫扣論壇
  • 論壇首頁
  • 學習資源
    JS 前端入門課程(精選)
  • 職涯發展
    🛠 求職準備指南|轉職前需要補充的技能 & 履歷撰寫技巧 🎯 轉職成功故事|Pchun:從硬體工程師到前端開發者的轉職之路 🚀 轉職成功故事|Birdie:從平面設計到前端,如何突破轉職困境? 💼 學員作品集|學員的學習成果與轉職作品展示
  • 社群交流
    愛寫扣論壇 - LINE 群組 愛寫扣論壇 - Discord 群組 愛寫扣論壇 - Telegram 群組
    台灣 Shopify 開發者群組 - LINE 群組
  • 開發專區
    文章 API
  • 刊登廣告
  • 發佈貼文
  • 登入
  • 註冊
🔴 訂閱 YT 頻道!站長每週分享心得! ➡️ YT 頻道 ➡️ LINE 社群 ➡️ DC 社群

transformer 學習筆記

transformer 學習筆記

站長阿川  ·  06月14日
想說學一下 LLM 基礎知識 tokenizer

https://poloclub.github.io/transformer-explainer/ 看了一下早期的 gpt tokenier https://github.com/kaisugi/gpt4_vocab_list/tree/main 有關中文的部分也少少的 鳥鳥的 但...

0個讚   0留言 526瀏覽
站長阿川  ·  06月14日
LLM 裡的 QKV:原來就是三張超大的參數表

# My thoughts by chatgpt 每個 token 都會先被轉成一個向量。這個向量可能有 768 維、4096 維,甚至更大。也就是說,一個 token 本質上就是一串很多很多數字。 進入 self-attention 的時候,這個 token vector 會再被轉成三...

0個讚   0留言 372瀏覽
站長阿川  ·  06月14日
Attention:原來就是矩陣相乘、轉比例、混合資訊

# My thoughts by chatgpt 每個 token vector 會被轉成 Q、K、V 三種向量。 Q 可以理解成「我想找什麼」。 K 是「我有什麼特徵可以被匹配」。 V 是「我真正提供的內容」。 那 attention 的下一步,就是讓每個 token 的 Q...

0個讚   0留言 381瀏覽
站長阿川  ·  06月14日
Transformer 裡的 Head 和 Layer

今天釐清了一個很容易混淆的地方:GPT-2 small 裡的 12,可能同時指 12 layers,也可能指 12 heads,但這兩個意思完全不同。 Layer 是模型的深度。GPT-2 small 有 12 層 Transformer block,意思是 token vector 會像走流...

0個讚   0留言 368瀏覽
站長阿川  ·  06月14日
Attention 負責交換,MLP 負責消化

MLP = Multi-Layer Perceptron 多層感知器 # My thoughts by chatgpt 原本我以為 Transformer 裡面,每個 token vector 經過 QKV attention 之後,就會直接變成下一層的 input。現在才發現,事情不是...

0個讚   0留言 369瀏覽
站長阿川  ·  06月15日
Attention Output 與 MLP 心得

# My thoughts by chatgpt 我原本以為 attention 算完關聯分數之後,就差不多可以直接進到下一層了。後來才發現,真正的流程比這更細緻。 在 self-attention 裡,每個 token 會先透過不同的矩陣變成 Q、K、V: ```text X ...

0個讚   0留言 385瀏覽
站長阿川  ·  06月15日
Output Logit 與最後一個 Token

## My thoughts by chatgpt 今天理解到 GPT 產生下一個 token 的最後階段,叫做 output logit。 一開始我以為 Transformer 裡面既然是 token 彼此互看,那最後應該是整串 token 一起拿去預測下一個 token。可是後來才搞...

0個讚   0留言 368瀏覽
站長阿川  ·  06月15日
從 output logits 到 sampling

# My thoughts by chatgpt 這一段我終於比較理解 LLM 最後「生出下一個 token」的流程了。 模型真正困難的部分,其實是在前面:整段輸入經過 embedding、attention、MLP、很多層 transformer 之後,最後算出一組 output lo...

0個讚   0留言 361瀏覽
站長阿川  ·  06月15日
Transformer block 裡比較「工程輔助」但非常重要的東西

這三個是 Transformer block 裡比較「工程輔助」但非常重要的東西。 ``` 原本的 token vector ↓ LayerNorm ↓ Self-Attention ↓ Residual Connection ↓ LayerNorm ↓...

0個讚   0留言 370瀏覽
熱門搜尋: kubernetes MCP nano JAVA anti Ts 設計 VSCODE COM next.js 研究 工作 Vue Bootstrap app deepseek amazon dockerfile Git java code rails Imgur 論壇 JavaScript Github 學習 chatgpt rust math.js Re side AI javasc python 前端 json jqu 非同步 JS Openai GIT tailwind Claude Vscode re TypeScript Javas CSS 技術 網站 提示 AWS 測試 discord shell aws Ai vscode 系列 新手 開發 AM javascript 自學網頁の嬰兒教 facebook COMPO go GitHub npm com prisma Claude Code clean vs css agent Dockerfile windsurf hooks hermes Flutter post Kotlin bootstrap monorepo 部署 jwt 接案 javas https Ruby on Rails 邁向資深之路:非同步 JS 訓練(一) __ work flutter 使用 jav vibe coding Javascript

Taiwan ・ Japan ・ Korea
CodeLove 愛寫扣論壇 © 2026
🛡️ 隱私及網站安全:本站註冊過程「不須提供任何個資」,只要 E-Mail 與帳密即可註冊,請安心註冊!線上付款過程使用「綠界科技 ECPay 」第三方專業金流廠商,全程在「綠界科技 ECPay 」網站進行付款程序,本站「不會紀錄任何信用卡資訊」,請放心付款、解鎖課程!您隨時可以透過 FB 粉專或者 Email 聯絡站長,請求刪除網站上的個人資料。

‹ › ×