小編精選 - 技術文章翻譯 · 03月07日

馬斯克按讚的小模型：Qwen3.5 民營化部署全攻略（0.8B/2B/4B/9B）

馬斯克點讚的小模型：Qwen3.5 私有化部署全攻略（0.8B/2B/4B/9B）

一、引言

3月2日阿里通義千問團隊在 X 平台正式發布了 Qwen3.5 小模型系列，涵蓋 0.8B、2B、4B 和 9B 四個參數規格。引來馬斯克大讚!。

馬斯克也在該推文下評論稱：「Impressive intelligence density」（令人印象深刻的智能密度）。

Qwen3.5 把“能在本地跑起來的小模型”做到了“又小又猛”，本文帶你用 Ollama/vLLM/LMDeploy 在內網私有化部署跑通，並給出選型與避坑清單。

二、Qwen3.5 小模型核心能力速覽

2.1 四款小模型參數與定位

0.8B / 2B：24 層結構，面向物聯網設備、邊緣端，甚至主流手機本地運行
4B：32 層結構，隱藏維度 2560，定位「多模態輕量智能體底座」，適合消費級 PC / 工作站
9B：32 層結構，隱藏維度 4096，FFN 12288，可在 Mac 等消費級硬體流暢運行
對標說明：9B 性能逼近 / 對標 120B 級別開源 ChatGPT 系列模型，但參數量只有約 1/13

2.2 關鍵評測指標與多模態能力

綜合能力：9B 在 MMLU-Pro 上約 82.5 分，MMMU-Pro 70+，MathVision 78+
視覺能力：0.8B、2B 在 MathVista、OCRBench 等視覺基準上，遠超同量級傳統輕量多模態模型
多模態架構：採用「早期融合」訓練機制，文本 + 圖像 + 視頻在底層統一建模，而不是給文本模型外挂視覺編碼器
長上下文：全系列支持最長約 26 萬 Token 的上下文窗口，適合長文檔、代碼庫、日誌分析等場景

2.3 架構特點與「小而強」的原因

混合注意力架構：門控增量網絡（Gated DeltaNet）+ 稀疏 MoE，注意力層以 3:1 方式交替排列
按需激活：前向推理只激活與當前任務相關的子網絡，而非全量計算，在保持效果的前提下降低算力和時延
思考/非思考雙模式：在深度推理（思考模式）和快速響應（非思考模式）之間切換，兼顧體驗和成本

2.4 開源生態與本地部署友好度

開放模型：已在 HuggingFace, ModelScope 等平台開放（含 0.8B/2B/4B/9B、Base / Chat、多模態等多個變體）
- HuggingFace:
- ModelScope:

modelscope-qwen3.5.png

推理生態：Ollama、vLLM、LMDeploy 等主流推理框架均已適配 Qwen3.5 系列
端側場景：已有開發者在 iPhone、筆記本電腦等設備本地運行 Qwen3.5-2B 量化版本，實現即時視覺問答

三、為什麼選擇私有化部署？

省錢（可控）、數據不出域、性能與可用性可控。
適合：內網/合規行業、要接入業務數據、要穩定低延遲/可觀測與運維的團隊。

四、部署方案對比：vLLM vs LMDeploy vs Ollama

4.1 三大框架對比表

框架	最佳場景	性能優勢	資源要求	部署複雜度	推薦指數
vLLM	高併發在線服務	PagedAttention，吞吐量提升 24 倍	多 GPU 推薦	中等	⭐⭐⭐⭐⭐
LMDeploy	邊緣設備/國產硬體	W4A16 量化，顯存降 90%+	昇騰 NPU/低端 GPU	簡單	⭐⭐⭐⭐
Ollama	本地開發/隱私敏感	極簡啟動，多模型切換	CPU/低配GPU	極簡	⭐⭐⭐

4.2 詳細對比分析

vLLM 優勢：

✅ 推理速度最快（⭐⭐⭐⭐⭐）
✅ 支持動態批處理
✅ 多卡並行成熟
✅ OpenAI API 兼容
❌ 內存效率一般
❌ 量化支持有限

LMDeploy 優勢：

✅ 內存效率最高（⭐⭐⭐⭐⭐）
✅ 量化支持完善（W4A16、KV8）
✅ 支持昇騰 NPU（國產硬體）
✅ 部署簡單
❌ 推理速度略慢於 vLLM

Ollama 優勢：

✅ 部署最簡單
✅ 支持多模型切換（一張卡跑多個模型）
✅ 跨平台支持（macOS/Linux/Windows）
❌ 性能相對較弱
❌ 不適合高併發場景

4.3 選型建議

選擇 vLLM 如果：

追求極致性能
高併發生產環境
多 GPU 資源充足

選擇 LMDeploy 如果：

資源受限（顯存/GPU）
需要量化優化
國產硬體環境（昇騰 NPU）

選擇 Ollama 如果：

個人開發/測試
需要快速驗證
多模型切換需求

五、環境準備與硬體要求

5.1 硬體要求

推薦配置：

GPU：單卡 24GB+ 或多卡
記憶體：64GB+
儲存：1TB NVMe SSD（便於多模型與多版本共存）

GPU 算力要求：

vLLM：算力 7.0 及以上（V100、T4、RTX20xx、A100、L4、H100 等）
LMDeploy：支持昇騰 NPU 或低端 GPU（通過量化）

5.2 軟體環境

操作系統：Linux（Ubuntu 20.04+ / CentOS 7+）
Python：3.9 - 3.12（vLLM 建議 3.12，LMDeploy 建議 3.11）
CUDA：11.8+（vLLM 需 CUDA 12.4+）
Conda：必需，用於環境隔離

5.3 我使用的配置

5.4 模型下載

HuggingFace（官方集合頁）：huggingface.co/collections…
示例（2B）：huggingface.co/Qwen/Qwen3.…
Ollama 模型庫：ollama.com/library/qwe…
模型大小說明：Qwen3.5 屬於“小模型梯度”，單模型文件體積通常遠小於超大模型；實際體積取決於 BF16/FP16、INT8、INT4（AWQ/GPTQ 等）與是否多模態等因素

六、方案一：vLLM 部署實戰

6.1 環境安裝

# 創建虛擬環境
conda create -n vllm python=3.12 -y
conda activate vllm

# 安裝 vLLM
pip install vllm

# 或安裝 PyTorch + vLLM（CUDA 12.4）
pip install torch==2.5.1 torchvision==0.20.1 --index-url https://download.pytorch.org/whl/cu124

安裝conda環境

安裝vllm

vLLM 是一個高吞吐量且內存高效的 LLM 推理和服務引擎。 Qwen3.5 需要使用開源倉庫主分支中的 vLLM，可在全新環境中通過以下命令安裝：

uv pip install vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

6.2 模型下載

#模型下載(從modelscope上複製SDK下載代碼)
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3.5-2B',
    cache_dir="/root/autodl-tmp/models")

print(f"模型下載到: {model_dir}")

模型下載

qwen3.5download.png

當然，你也可以從HuggingFace上下載。

6.3 啟動服務

單卡部署：

vllm serve /root/autodl-tmp/models/Qwen/Qwen3___5-2B --port 8000

多卡並行：

vllm serve --model /root/autodl-tmp/models/Qwen/Qwen3.5-2B --port 8000 --tensor-parallel-size 4

6.4 API 調用示例

代碼示例：
```
from openai import OpenAI
```

client = OpenAI(
base_url="http://localhost:8000/v1/",
api_key="EMPTY"
)

response = client.chat.completions.create(
model="qwen3.5-2b",
messages=[
{"role": "user", "content": "你好，請介紹一下你自己"}
],
temperature=1.0,
top_p=0.95,
top_k=40
)

print(response.choices[0].message.content)


---

## 七、方案二：LMDeploy 部署實戰

### 7.1 環境安裝
```bash
# 創建虛擬環境
conda create -n lmdeploy python=3.11 -y
conda activate lmdeploy

# 安裝 LMDeploy
pip install lmdeploy[all]

# 昇騰環境需額外安裝
pip install dlinfer-ascend

7.2 啟動服務

lmdeploy serve api_server /root/autodl-tmp/models/Qwen/Qwen3___5-2B --server-port 23333

7.3 API 調用示例

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:23333/v1/",
    api_key="suibianxie"
)

response = client.chat.completions.create(
    model="/root/autodl-tmp/models/Qwen/Qwen3.5-2B",
    messages=[
        {"role": "user", "content": "你好，請介紹一下你自己"}
    ],
    temperature=1.0,
    top_p=0.95,
    top_k=40
)

print(response.choices[0].message.content)

7.4 量化優化（顯存受限時）

# 思路：優先用“量化版本”降低顯存壓力（不同項目支持的量化路線不同）
# - 若使用 LMDeploy 的量化/轉換流程，可在 convert 階段配置量化策略（示例寫法以 LMDeploy 文檔為準）
lmdeploy convert qwen3.5-2b \
    Qwen/Qwen3.5-2B \
    --dst-path /data/models/qwen3.5-2b-turbomind-int4 \
    --quant-policy 4 \
    --tp 1

八、推理參數配置

目標： 提供最佳實踐參數

內容要點：

8.1 推薦參數

根據官方文檔，推薦使用以下參數：

{
    "temperature": 1.0,
    "top_p": 0.95,
    "top_k": 40,
    "max_tokens": 2048
}

8.2 預設系統提示

You are a helpful assistant.

8.3 參數調優建議

temperature：控制隨機性（0.7-1.0 適合大多數場景）
top_p：核採樣，控制多樣性
top_k：限制候選 token 數量

九、總結與展望

9.1 核心要點回顧

Qwen3.5 小模型的“智能密度”與端側可用性
vLLM 和 LMDeploy 的適用場景
完整的部署流程

9.2 選擇建議總結

場景	推薦方案
高併發生產環境	vLLM
資源受限/量化需求	LMDeploy
快速驗證/開發	Ollama
國產硬體環境	LMDeploy + 昇騰 NPU

9.3 下一步行動

評估硬體資源
選擇部署框架
下載模型文件
按照指南部署
進行性能測試

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

0個讚 0留言 3,121瀏覽

共有 0 則留言

登入之後發表留言

文字內容提供幾種功能：
1) --- 會變成分隔線（上一行必須是空白）
2) # 會變成一級標題
3) ## 會變成二級標題
4) ### 會變成三級標題
5) **粗體文字**會顯示粗體文字
6) ```當第一行與最後一行會顯示程式碼
7) 請搜尋 Markdown 語法，了解各種格式

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

🏆 本月排行榜

🥇

站長阿川

📝12 💬4 ❤️1

455

🥈

alicec

📝1 ❤️2

🥉

JCConf Taiwan

我愛JS

💬1

AMPM-AIOPS

評分標準：發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10

本數據每小時更新一次

馬斯克按讚的小模型：Qwen3.5 民營化部署全攻略（0.8B/2B/4B/9B）

馬斯克按讚的小模型：Qwen3.5 民營化部署全攻略（0.8B/2B/4B/9B）

馬斯克點讚的小模型：Qwen3.5 私有化部署全攻略（0.8B/2B/4B/9B）

一、引言

二、Qwen3.5 小模型核心能力速覽

2.1 四款小模型參數與定位

2.2 關鍵評測指標與多模態能力

2.3 架構特點與「小而強」的原因

2.4 開源生態與本地部署友好度

三、為什麼選擇私有化部署？

四、部署方案對比：vLLM vs LMDeploy vs Ollama

4.1 三大框架對比表

4.2 詳細對比分析

4.3 選型建議

五、環境準備與硬體要求

5.1 硬體要求

5.2 軟體環境

5.3 我使用的配置

5.4 模型下載

六、方案一：vLLM 部署實戰

6.1 環境安裝

6.2 模型下載

6.3 啟動服務

6.4 API 調用示例

7.2 啟動服務

7.3 API 調用示例

7.4 量化優化（顯存受限時）

八、推理參數配置

8.1 推薦參數

8.2 預設系統提示

8.3 參數調優建議

九、總結與展望

9.1 核心要點回顧

9.2 選擇建議總結

9.3 下一步行動

9.4 相關資源

小編精選 - 技術文章翻譯

🏆 本月排行榜