🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付

馬斯克點讚的小模型:Qwen3.5 私有化部署全攻略(0.8B/2B/4B/9B)

一、引言

3月2日阿里通義千問團隊在 X 平台正式發布了 Qwen3.5 小模型系列,涵蓋 0.8B、2B、4B9B 四個參數規格。引來馬斯克大讚!

640.webp

馬斯克也在該推文下評論稱:「Impressive intelligence density」(令人印象深刻的智能密度)。

MASK1.png

Qwen3.5 把“能在本地跑起來的小模型”做到了“又小又猛”,本文帶你用 Ollama/vLLM/LMDeploy 在內網私有化部署跑通,並給出選型與避坑清單。


二、Qwen3.5 小模型核心能力速覽

2.1 四款小模型參數與定位

  • 0.8B / 2B:24 層結構,面向物聯網設備、邊緣端,甚至主流手機本地運行
  • 4B:32 層結構,隱藏維度 2560,定位「多模態輕量智能體底座」,適合消費級 PC / 工作站
  • 9B:32 層結構,隱藏維度 4096,FFN 12288,可在 Mac 等消費級硬體流暢運行
  • 對標說明:9B 性能逼近 / 對標 120B 級別開源 ChatGPT 系列模型,但參數量只有約 1/13

2.2 關鍵評測指標與多模態能力

  • 綜合能力:9B 在 MMLU-Pro 上約 82.5 分,MMMU-Pro 70+,MathVision 78+
  • 視覺能力:0.8B、2B 在 MathVista、OCRBench 等視覺基準上,遠超同量級傳統輕量多模態模型
  • 多模態架構:採用「早期融合」訓練機制,文本 + 圖像 + 視頻在底層統一建模,而不是給文本模型外挂視覺編碼器
  • 長上下文:全系列支持最長約 26 萬 Token 的上下文窗口,適合長文檔、代碼庫、日誌分析等場景

2.3 架構特點與「小而強」的原因

  • 混合注意力架構:門控增量網絡(Gated DeltaNet)+ 稀疏 MoE,注意力層以 3:1 方式交替排列
  • 按需激活:前向推理只激活與當前任務相關的子網絡,而非全量計算,在保持效果的前提下降低算力和時延
  • 思考/非思考雙模式:在深度推理(思考模式)和快速響應(非思考模式)之間切換,兼顧體驗和成本

2.4 開源生態與本地部署友好度

  • 開放模型:已在 HuggingFace, ModelScope 等平台開放(含 0.8B/2B/4B/9B、Base / Chat、多模態等多個變體)
    • HuggingFace:
      640 (1).webp
    • ModelScope:

modelscope-qwen3.5.png

  • 推理生態:Ollama、vLLM、LMDeploy 等主流推理框架均已適配 Qwen3.5 系列
  • 端側場景:已有開發者在 iPhone、筆記本電腦等設備本地運行 Qwen3.5-2B 量化版本,實現即時視覺問答

三、為什麼選擇私有化部署?

  • 省錢(可控)數據不出域性能與可用性可控
  • 適合:內網/合規行業、要接入業務數據、要穩定低延遲/可觀測與運維的團隊。

四、部署方案對比:vLLM vs LMDeploy vs Ollama

4.1 三大框架對比表

框架 最佳場景 性能優勢 資源要求 部署複雜度 推薦指數
vLLM 高併發在線服務 PagedAttention,吞吐量提升 24 倍 多 GPU 推薦 中等 ⭐⭐⭐⭐⭐
LMDeploy 邊緣設備/國產硬體 W4A16 量化,顯存降 90%+ 昇騰 NPU/低端 GPU 簡單 ⭐⭐⭐⭐
Ollama 本地開發/隱私敏感 極簡啟動,多模型切換 CPU/低配GPU 極簡 ⭐⭐⭐

4.2 詳細對比分析

vLLM 優勢:

  • ✅ 推理速度最快(⭐⭐⭐⭐⭐)
  • ✅ 支持動態批處理
  • ✅ 多卡並行成熟
  • ✅ OpenAI API 兼容
  • ❌ 內存效率一般
  • ❌ 量化支持有限

LMDeploy 優勢:

  • ✅ 內存效率最高(⭐⭐⭐⭐⭐)
  • ✅ 量化支持完善(W4A16、KV8)
  • ✅ 支持昇騰 NPU(國產硬體)
  • ✅ 部署簡單
  • ❌ 推理速度略慢於 vLLM

Ollama 優勢:

  • ✅ 部署最簡單
  • ✅ 支持多模型切換(一張卡跑多個模型)
  • ✅ 跨平台支持(macOS/Linux/Windows)
  • ❌ 性能相對較弱
  • ❌ 不適合高併發場景

4.3 選型建議

選擇 vLLM 如果:

  • 追求極致性能
  • 高併發生產環境
  • 多 GPU 資源充足

選擇 LMDeploy 如果:

  • 資源受限(顯存/GPU)
  • 需要量化優化
  • 國產硬體環境(昇騰 NPU)

選擇 Ollama 如果:

  • 個人開發/測試
  • 需要快速驗證
  • 多模型切換需求

五、環境準備與硬體要求

5.1 硬體要求

推薦配置:

  • GPU:單卡 24GB+ 或多卡
  • 記憶體:64GB+
  • 儲存:1TB NVMe SSD(便於多模型與多版本共存)

GPU 算力要求:

  • vLLM:算力 7.0 及以上(V100、T4、RTX20xx、A100、L4、H100 等)
  • LMDeploy:支持昇騰 NPU 或低端 GPU(通過量化)

5.2 軟體環境

  • 操作系統:Linux(Ubuntu 20.04+ / CentOS 7+)
  • Python:3.9 - 3.12(vLLM 建議 3.12,LMDeploy 建議 3.11)
  • CUDA:11.8+(vLLM 需 CUDA 12.4+)
  • Conda:必需,用於環境隔離

5.3 我使用的配置

my-define.png

5.4 模型下載


六、方案一:vLLM 部署實戰

6.1 環境安裝

# 創建虛擬環境
conda create -n vllm python=3.12 -y
conda activate vllm

# 安裝 vLLM
pip install vllm

# 或安裝 PyTorch + vLLM(CUDA 12.4)
pip install torch==2.5.1 torchvision==0.20.1 --index-url https://download.pytorch.org/whl/cu124
  • 安裝conda環境

conda-install1.png

  • 安裝vllm

vllm-install.png

vLLM 是一個高吞吐量且內存高效的 LLM 推理和服務引擎。 Qwen3.5 需要使用開源倉庫主分支中的 vLLM,可在全新環境中通過以下命令安裝:

uv pip install vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

6.2 模型下載

#模型下載(從modelscope上複製SDK下載代碼)
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3.5-2B',
    cache_dir="/root/autodl-tmp/models")

print(f"模型下載到: {model_dir}")
  • 模型下載

qwen3.5download.png

當然,你也可以從HuggingFace上下載。

6.3 啟動服務

單卡部署:

vllm serve /root/autodl-tmp/models/Qwen/Qwen3___5-2B --port 8000

多卡並行:

vllm serve --model /root/autodl-tmp/models/Qwen/Qwen3.5-2B --port 8000 --tensor-parallel-size 4

6.4 API 調用示例

run-result.png

  • 代碼示例:
    
    from openai import OpenAI

client = OpenAI(
base_url="http://localhost:8000/v1/",
api_key="EMPTY"
)

response = client.chat.completions.create(
model="qwen3.5-2b",
messages=[
{"role": "user", "content": "你好,請介紹一下你自己"}
],
temperature=1.0,
top_p=0.95,
top_k=40
)

print(response.choices[0].message.content)


---

## 七、方案二:LMDeploy 部署實戰

### 7.1 環境安裝
```bash
# 創建虛擬環境
conda create -n lmdeploy python=3.11 -y
conda activate lmdeploy

# 安裝 LMDeploy
pip install lmdeploy[all]

# 昇騰環境需額外安裝
pip install dlinfer-ascend

7.2 啟動服務

lmdeploy serve api_server /root/autodl-tmp/models/Qwen/Qwen3___5-2B --server-port 23333

7.3 API 調用示例

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:23333/v1/",
    api_key="suibianxie"
)

response = client.chat.completions.create(
    model="/root/autodl-tmp/models/Qwen/Qwen3.5-2B",
    messages=[
        {"role": "user", "content": "你好,請介紹一下你自己"}
    ],
    temperature=1.0,
    top_p=0.95,
    top_k=40
)

print(response.choices[0].message.content)

7.4 量化優化(顯存受限時)

# 思路:優先用“量化版本”降低顯存壓力(不同項目支持的量化路線不同)
# - 若使用 LMDeploy 的量化/轉換流程,可在 convert 階段配置量化策略(示例寫法以 LMDeploy 文檔為準)
lmdeploy convert qwen3.5-2b \
    Qwen/Qwen3.5-2B \
    --dst-path /data/models/qwen3.5-2b-turbomind-int4 \
    --quant-policy 4 \
    --tp 1

八、推理參數配置

目標: 提供最佳實踐參數

內容要點:

8.1 推薦參數

根據官方文檔,推薦使用以下參數:

{
    "temperature": 1.0,
    "top_p": 0.95,
    "top_k": 40,
    "max_tokens": 2048
}

8.2 預設系統提示

You are a helpful assistant.

8.3 參數調優建議

  • temperature:控制隨機性(0.7-1.0 適合大多數場景)
  • top_p:核採樣,控制多樣性
  • top_k:限制候選 token 數量

九、總結與展望

9.1 核心要點回顧

  • Qwen3.5 小模型的“智能密度”與端側可用性
  • vLLM 和 LMDeploy 的適用場景
  • 完整的部署流程

9.2 選擇建議總結

場景 推薦方案
高併發生產環境 vLLM
資源受限/量化需求 LMDeploy
快速驗證/開發 Ollama
國產硬體環境 LMDeploy + 昇騰 NPU

9.3 下一步行動

  1. 評估硬體資源
  2. 選擇部署框架
  3. 下載模型文件
  4. 按照指南部署
  5. 進行性能測試

9.4 相關資源


原文出處:https://juejin.cn/post/7612929690669645867


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝26   💬2  
769
🥈
我愛JS
💬5  
16
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付