看到這個後,我寫了篇跟風文章。
Bonsai 這個新的 LLM,是一個 1-bit 模型。
我不太懂細節,但對於「在 樹莓派 上跑 LLM」這點很有興趣,所以試了一下。
以 2026/4/5 的價格來看是 33,110 日圓。近來記憶體價格飆漲,價格大幅上升。
我是在樹莓派 4 出的時候買的,當時好像只要一萬日圓多一點。
Bonsai 的 1-bit 在標準的 llama.cpp 似乎不支援,因此有人提供了客製版本。
針對 x64 已有 release 的編譯好的二進位檔,但像樹莓派 4 這類 arm64 版本沒有,所以要自己編譯。
步驟如下:
安裝建置所需套件
sudo apt update
sudo apt install -y git cmake build-essential libopenblas-dev
取得客製版 llama.cpp 原始碼
git clone https://github.com/PrismML-Eng/llama.cpp
cd llama.cpp
建置
cmake -B build -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS
cmake --build build --config Release -j2
從 Hugging Face 下載公開的 Bonsai。透過指定 HF_HUB_CACHE 來設定下載位置。
HF_HUB_CACHE="$PWD/cache_hf" uvx hf download prism-ml/Bonsai-1.7B-gguf
準備就緒,開始執行,使用 llama-cli。
./build/bin/llama-cli \
-m cache_hf/models--prism-ml--Bonsai-1.7B-gguf/snapshots/c89c1b5578286827264c4217f40edee617f4f904/Bonsai-1.7B.gguf

啟動了!
我透過 Raspberry Pi Connect 連線到樹莓派。這次是第一次使用,遠端存取非常方便!
可以運作,但生成出來的內容……嗯,還是別看比較好。問到日本相關的內容是我的錯。
看起來大約能生成 3.3 個 token/秒。

執行中的 top 結果如下:CPU 幾乎全速運轉,但記憶體還有餘裕。

我也準備了影片,有時間的話可以看一下。雖然慢,但看得出有在努力。
原文出處:https://qiita.com/moritalous/items/96cdc8bcd48d8a193556