小編精選 - 技術文章翻譯 · 05月28日

文組東大生從零開始開發 GPT 型模型的故事 Part.1 【高音株式會社協力】

【關於設備協力】
本文（以及本連載企劃）在開發與驗證過程中，承蒙 Highreso 株式會社無償提供 GPU 雲端服務「GPUSOROBAN」的運算資源（NVIDIA A100 80GB）。

0.前言

大家好！我是東京大學文科三類二年級、東大 AI 研究會代表的青木宏太朗。

我們東大 AI 研究會是在東京大學活動的社團，為了用一年的時間從零開始開發 GPT 型模型，每週三都會舉辦讀書會。在讀書會中，我們使用即使是初學者也容易理解的投影片，以及完整的課程內容來推進開發。

這次在 Highreso 株式會社 的協助下，我們決定從零開始開發通用模型。這項「GPT 型模型的從零開發專案」名為：

SGT（Scratch Generative Transformer）專案

在本系列中，我們將即時帶大家了解這群文組學生，從專案企劃階段一路挑戰到目標達成的過程。

Highreso 株式會社是一家自行營運 GPU 資料中心，並提供名為 「GPUSOROBAN」 的 GPU 雲端服務的公司。高效能 GPU 非常昂貴，對我們這樣的學生社團來說並不是能輕易入手的設備。GPUSOROBAN 可讓我們在雲端上依需求租用所需期間與數量的 GPU，因此能在降低初期投資的情況下活用 GPU 進行開發。這次，我們很榮幸獲得他們無償提供部分 GPU 給東大 AI 研究會使用。

Highreso 株式會社標誌 GPUSOROBAN 標誌
▲ Highreso 株式會社（左）與 GPU 雲端服務「GPUSOROBAN」的標誌（右）

1.企劃背景

2025 年春天，剛入學並加入這個社團時，我對 AI 的知識可說是一片空白。甚至連電腦都幾乎沒碰過，還曾因為不曉得 Tab 鍵在哪裡而去請教師兄姊。不過即便如此，我們仍在一年內成功從零開發出 GPT 型模型。

雖然說是「從零開發 GPT 型模型」，但受限於運算資源，參數量也只有約 0.5B，完成的模型性能相當普通……。正當我苦惱著該如何設法確保運算資源、打造出性能更好的模型時，Highreso 株式會社表示願意提供 GPU 給我們使用！

在這樣難得且無比珍貴的機會下，我決定「再挑戰一次 G 檢定」。

「……你是 G 檢定沒考過嗎？」也許有人會這麼想。其實不是，我在 2025 年 9 月報考 G 檢定，並且已經通過了。對當時 AI 知識仍相當不足的我來說，準備 G 檢定的過程非常有趣，不僅認識了各式各樣的 AI 模型，也學到了 AI 的歷史與法律相關知識。G 檢定準備時所獲得的知識，成了我作為東大 AI 研究會代表持續活動的重要基礎。

「既然 G 檢定給了我成長的機會，這次我想不是用自己，而是用基於從 G 檢定學到的知識所開發出的 GPT 型模型來挑戰它。」這份想法，正是 SGT 專案的背景。此外，這次我們不是直接使用官方試題，而是參考出題範圍與學習領域，獨立進行模型評估。

G 檢定是一項如下的資格考試：

G 檢定是由一般社團法人日本深度學習協會（JDLA）實施，旨在培養 AI、深度學習活用素養的檢定考試。所有與 AI、深度學習相關的人士都可報考。透過系統性學習 AI 與深度學習，可理解「AI 能做什麼、不能做什麼」「應該把 AI 活用在哪裡」「為了活用 AI 需要什麼」，進而能夠發掘運用資料的新課題與創意，並對推動數位施策更有信心，讓你的商業與職涯可能性大幅拓展。
出處：日本深度學習協會官方網站「什麼是 G 檢定」（https://www.jdla.org/certificate/general/ ）

關於日本深度學習協會（JDLA）：

本協會以提升日本產業競爭力為目標，核心技術為深度學習。因此，我們將以以深度學習為事業核心的企業與有識之士為中心，推動產業應用、人才培育、對公部門與產業的建言、國際合作、與社會對話等，持續進行產業健全發展所需的活動。
出處：日本深度學習協會官方網站「關於協會」（https://www.jdla.org/about/ ）

2.挑戰從零開發的意義

簡單介紹一下東大 AI 研究會。在這個可以透過網路使用超高性能 AI 的時代，為什麼我們東大 AI 研究會還要挑戰 GPT 型模型的從零開發呢？

答案很單純，因為有趣。

GPT 型模型的架構非常有趣。從反向傳播法到 Transformer，在 GPT 型模型的開發中，會實作許多經過巧思設計的各種演算法。

這些演算法與其從書本或論文文字中學習，不如親自實作一遍更容易理解，也更有成就感，並且能在享受樂趣的同時學習。無法理解的東西就不會有趣，而如果不有趣，任何事情都很難持續下去。

能夠理解、享受，並追求 GPT 型模型的有趣之處，這就是挑戰從零開發的意義所在。

3.為何不直接使用既有模型，而要從實作中學習

市面上已經有 Llama、Qwen 等高性能開源模型公開，如果直接對這些既有模型進行微調，應該能更輕鬆、更快速地做出一個針對 G 檢定的專用模型。

但這樣還能從 GPT 型模型中學到什麼新的東西嗎？相較於微調，從實作中學習有很大的意義。像 Flash Attention 這類為了最大化運算資源利用率的架構巧思，以及在預訓練過程中會遇到的各種問題，若不從實作中學習就無法真正理解。

實際動手，透過巧思解決問題……這正是東大 AI 研究會最重視的「樂趣」所在。正因為不輕鬆，才更有成就感；正因為有成就感，才會覺得有趣。能同時獲得學習與樂趣，這就是我們選擇從實作開始學習的理由。

4.使用的 GPU 環境概要

這次我們使用 Highreso 株式會社的 GPUSOROBAN，並在 6 月 1 日至 7 月 31 日期間借用 NVIDIA A100 80GB。

【GPU 環境概要】
GPU：NVIDIA A100 80GB × 1
運算平台：GPUSOROBAN
作業系統：Ubuntu 22.04
CUDA / Driver：12.8 / 570.86
Python：3.11
PyTorch：2.7.0

5.SGT 專案整體目標

SGT 專案有以下三個目的。

① 製作具備相當於 G 檢定知識的模型。

・我們將從零開始製作通用模型。除了 GPQA 等一般基準之外，也會參考 G 檢定的出題範圍與學習領域，建立獨立的評估資料集，以檢驗模型能獲得多少 AI／深度學習的基礎知識。

② 理解最大化運用運算資源的技巧。

・透過實作 Flash Attention、KV 快取等可最大化訓練與推論計算效率的技術，加深對 GPT 型模型的理解。

③ 體驗長期且真實的開發環境。

・SGT 專案將持續約三個月。從架構考察到使用外部 GPU 的訓練規劃，透過接近實務的體驗，加深對實際開發環境的理解。

以上三個目標，就是 SGT 專案的最終目標。
接下來我們也會定期上傳技術文章，敬請期待！

下一回將帶來 Part2【資料準備篇】！

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

0個讚 0留言 111瀏覽

共有 0 則留言

登入之後發表留言

文字內容提供幾種功能：
1) --- 會變成分隔線（上一行必須是空白）
2) # 會變成一級標題
3) ## 會變成二級標題
4) ### 會變成三級標題
5) **粗體文字**會顯示粗體文字
6) ```當第一行與最後一行會顯示程式碼
7) 請搜尋 Markdown 語法，了解各種格式

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

🏆 本月排行榜

🥇

站長阿川

📝8 💬2 ❤️5

244

🥈

我愛JS

📝2 💬6 ❤️3

111

評分標準：發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10

本數據每小時更新一次

文組東大生從零開始開發 GPT 型模型的故事 Part.1 【高音株式會社協力】

文組東大生從零開始開發 GPT 型模型的故事 Part.1 【高音株式會社協力】

0.前言

SGT（Scratch Generative Transformer）專案

1.企劃背景

在這樣難得且無比珍貴的機會下，我決定「再挑戰一次 G 檢定」。

2.挑戰從零開發的意義

答案很單純，因為有趣。

3.為何不直接使用既有模型，而要從實作中學習

4.使用的 GPU 環境概要

5.SGT 專案整體目標

① 製作具備相當於 G 檢定知識的模型。

② 理解最大化運用運算資源的技巧。

③ 體驗長期且真實的開發環境。

下一回將帶來 Part2【資料準備篇】！

相關連結

小編精選 - 技術文章翻譯

🏆 本月排行榜