看到這個後,我寫了篇跟風文章。

Bonsai 這個新的 LLM,是一個 1-bit 模型。

我不太懂細節,但對於「在 樹莓派 上跑 LLM」這點很有興趣,所以試了一下。

環境

  • 樹莓派 4(記憶體 8GB)

以 2026/4/5 的價格來看是 33,110 日圓。近來記憶體價格飆漲,價格大幅上升。

我是在樹莓派 4 出的時候買的,當時好像只要一萬日圓多一點。

llama.cpp 的建置

Bonsai 的 1-bit 在標準的 llama.cpp 似乎不支援,因此有人提供了客製版本。

針對 x64 已有 release 的編譯好的二進位檔,但像樹莓派 4 這類 arm64 版本沒有,所以要自己編譯。

步驟如下:

  1. 安裝建置所需套件

    sudo apt update
    sudo apt install -y git cmake build-essential libopenblas-dev
  2. 取得客製版 llama.cpp 原始碼

    git clone https://github.com/PrismML-Eng/llama.cpp
    cd llama.cpp
  3. 建置

    cmake -B build -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS
    cmake --build build --config Release -j2

下載模型

從 Hugging Face 下載公開的 Bonsai。透過指定 HF_HUB_CACHE 來設定下載位置。

HF_HUB_CACHE="$PWD/cache_hf" uvx hf download prism-ml/Bonsai-1.7B-gguf

執行

準備就緒,開始執行,使用 llama-cli。

./build/bin/llama-cli \
  -m cache_hf/models--prism-ml--Bonsai-1.7B-gguf/snapshots/c89c1b5578286827264c4217f40edee617f4f904/Bonsai-1.7B.gguf

image.png

啟動了!

我透過 Raspberry Pi Connect 連線到樹莓派。這次是第一次使用,遠端存取非常方便!

可以運作,但生成出來的內容……嗯,還是別看比較好。問到日本相關的內容是我的錯。

看起來大約能生成 3.3 個 token/秒。

image.png

執行中的 top 結果如下:CPU 幾乎全速運轉,但記憶體還有餘裕。

image.png

我也準備了影片,有時間的話可以看一下。雖然慢,但看得出有在努力。


原文出處:https://qiita.com/moritalous/items/96cdc8bcd48d8a193556


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝9   💬11   ❤️3
561
🥈
我愛JS
📝2   💬7   ❤️2
149
🥉
💬1  
4
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
📢 贊助商廣告 · 我要刊登