【關於設備協力】
本文(以及本連載企劃)在開發與驗證過程中,承蒙 Highreso 株式會社無償提供 GPU 雲端服務「GPUSOROBAN」的運算資源(NVIDIA A100 80GB)。
大家好!我是東京大學文科三類二年級、東大 AI 研究會代表的青木宏太朗。
我們東大 AI 研究會是在東京大學活動的社團,為了用一年的時間從零開始開發 GPT 型模型,每週三都會舉辦讀書會。在讀書會中,我們使用即使是初學者也容易理解的投影片,以及完整的課程內容來推進開發。
這次在 Highreso 株式會社 的協助下,我們決定從零開始開發通用模型。這項「GPT 型模型的從零開發專案」名為:
在本系列中,我們將即時帶大家了解這群文組學生,從專案企劃階段一路挑戰到目標達成的過程。
Highreso 株式會社是一家自行營運 GPU 資料中心,並提供名為 「GPUSOROBAN」 的 GPU 雲端服務的公司。高效能 GPU 非常昂貴,對我們這樣的學生社團來說並不是能輕易入手的設備。GPUSOROBAN 可讓我們在雲端上依需求租用所需期間與數量的 GPU,因此能在降低初期投資的情況下活用 GPU 進行開發。這次,我們很榮幸獲得他們無償提供部分 GPU 給東大 AI 研究會使用。

▲ Highreso 株式會社(左)與 GPU 雲端服務「GPUSOROBAN」的標誌(右)
2025 年春天,剛入學並加入這個社團時,我對 AI 的知識可說是一片空白。甚至連電腦都幾乎沒碰過,還曾因為不曉得 Tab 鍵在哪裡而去請教師兄姊。不過即便如此,我們仍在一年內成功從零開發出 GPT 型模型。
雖然說是「從零開發 GPT 型模型」,但受限於運算資源,參數量也只有約 0.5B,完成的模型性能相當普通……。正當我苦惱著該如何設法確保運算資源、打造出性能更好的模型時,Highreso 株式會社表示願意提供 GPU 給我們使用!
「……你是 G 檢定沒考過嗎?」也許有人會這麼想。其實不是,我在 2025 年 9 月報考 G 檢定,並且已經通過了。對當時 AI 知識仍相當不足的我來說,準備 G 檢定的過程非常有趣,不僅認識了各式各樣的 AI 模型,也學到了 AI 的歷史與法律相關知識。G 檢定準備時所獲得的知識,成了我作為東大 AI 研究會代表持續活動的重要基礎。
「既然 G 檢定給了我成長的機會,這次我想不是用自己,而是用基於從 G 檢定學到的知識所開發出的 GPT 型模型來挑戰它。」這份想法,正是 SGT 專案的背景。此外,這次我們不是直接使用官方試題,而是參考出題範圍與學習領域,獨立進行模型評估。
G 檢定是一項如下的資格考試:
G 檢定是由一般社團法人日本深度學習協會(JDLA)實施,旨在培養 AI、深度學習活用素養的檢定考試。所有與 AI、深度學習相關的人士都可報考。透過系統性學習 AI 與深度學習,可理解「AI 能做什麼、不能做什麼」「應該把 AI 活用在哪裡」「為了活用 AI 需要什麼」,進而能夠發掘運用資料的新課題與創意,並對推動數位施策更有信心,讓你的商業與職涯可能性大幅拓展。
出處:日本深度學習協會官方網站「什麼是 G 檢定」(https://www.jdla.org/certificate/general/ )
關於日本深度學習協會(JDLA):
本協會以提升日本產業競爭力為目標,核心技術為深度學習。因此,我們將以以深度學習為事業核心的企業與有識之士為中心,推動產業應用、人才培育、對公部門與產業的建言、國際合作、與社會對話等,持續進行產業健全發展所需的活動。
出處:日本深度學習協會官方網站「關於協會」(https://www.jdla.org/about/ )
簡單介紹一下東大 AI 研究會。在這個可以透過網路使用超高性能 AI 的時代,為什麼我們東大 AI 研究會還要挑戰 GPT 型模型的從零開發呢?
GPT 型模型的架構非常有趣。從反向傳播法到 Transformer,在 GPT 型模型的開發中,會實作許多經過巧思設計的各種演算法。
這些演算法與其從書本或論文文字中學習,不如親自實作一遍更容易理解,也更有成就感,並且能在享受樂趣的同時學習。無法理解的東西就不會有趣,而如果不有趣,任何事情都很難持續下去。
能夠理解、享受,並追求 GPT 型模型的有趣之處,這就是挑戰從零開發的意義所在。
市面上已經有 Llama、Qwen 等高性能開源模型公開,如果直接對這些既有模型進行微調,應該能更輕鬆、更快速地做出一個針對 G 檢定的專用模型。
但這樣還能從 GPT 型模型中學到什麼新的東西嗎?相較於微調,從實作中學習有很大的意義。像 Flash Attention 這類為了最大化運算資源利用率的架構巧思,以及在預訓練過程中會遇到的各種問題,若不從實作中學習就無法真正理解。
實際動手,透過巧思解決問題……這正是東大 AI 研究會最重視的「樂趣」所在。正因為不輕鬆,才更有成就感;正因為有成就感,才會覺得有趣。能同時獲得學習與樂趣,這就是我們選擇從實作開始學習的理由。
這次我們使用 Highreso 株式會社的 GPUSOROBAN,並在 6 月 1 日至 7 月 31 日期間借用 NVIDIA A100 80GB。
【GPU 環境概要】
GPU:NVIDIA A100 80GB × 1
運算平台:GPUSOROBAN
作業系統:Ubuntu 22.04
CUDA / Driver:12.8 / 570.86
Python:3.11
PyTorch:2.7.0
SGT 專案有以下三個目的。
・我們將從零開始製作通用模型。除了 GPQA 等一般基準之外,也會參考 G 檢定的出題範圍與學習領域,建立獨立的評估資料集,以檢驗模型能獲得多少 AI/深度學習的基礎知識。
・透過實作 Flash Attention、KV 快取等可最大化訓練與推論計算效率的技術,加深對 GPT 型模型的理解。
・SGT 專案將持續約三個月。從架構考察到使用外部 GPU 的訓練規劃,透過接近實務的體驗,加深對實際開發環境的理解。
以上三個目標,就是 SGT 專案的最終目標。
接下來我們也會定期上傳技術文章,敬請期待!
Highreso 株式會社 官方網站:https://highreso.jp/
雲端服務 GPUSOROBAN:https://soroban.highreso.jp/
原文出處:https://qiita.com/UT_AI_CLUB/items/fae636ab3a9b75ebf930