3月2日阿里通義千問團隊在 X 平台正式發布了 Qwen3.5 小模型系列,涵蓋 0.8B、2B、4B 和 9B 四個參數規格。引來馬斯克大讚!。

馬斯克也在該推文下評論稱:「Impressive intelligence density」(令人印象深刻的智能密度)。

Qwen3.5 把“能在本地跑起來的小模型”做到了“又小又猛”,本文帶你用 Ollama/vLLM/LMDeploy 在內網私有化部署跑通,並給出選型與避坑清單。


| 框架 | 最佳場景 | 性能優勢 | 資源要求 | 部署複雜度 | 推薦指數 |
|---|---|---|---|---|---|
| vLLM | 高併發在線服務 | PagedAttention,吞吐量提升 24 倍 | 多 GPU 推薦 | 中等 | ⭐⭐⭐⭐⭐ |
| LMDeploy | 邊緣設備/國產硬體 | W4A16 量化,顯存降 90%+ | 昇騰 NPU/低端 GPU | 簡單 | ⭐⭐⭐⭐ |
| Ollama | 本地開發/隱私敏感 | 極簡啟動,多模型切換 | CPU/低配GPU | 極簡 | ⭐⭐⭐ |
vLLM 優勢:
LMDeploy 優勢:
Ollama 優勢:
選擇 vLLM 如果:
選擇 LMDeploy 如果:
選擇 Ollama 如果:
推薦配置:
GPU 算力要求:

# 創建虛擬環境
conda create -n vllm python=3.12 -y
conda activate vllm
# 安裝 vLLM
pip install vllm
# 或安裝 PyTorch + vLLM(CUDA 12.4)
pip install torch==2.5.1 torchvision==0.20.1 --index-url https://download.pytorch.org/whl/cu124


vLLM 是一個高吞吐量且內存高效的 LLM 推理和服務引擎。 Qwen3.5 需要使用開源倉庫主分支中的 vLLM,可在全新環境中通過以下命令安裝:
uv pip install vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly
#模型下載(從modelscope上複製SDK下載代碼)
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3.5-2B',
cache_dir="/root/autodl-tmp/models")
print(f"模型下載到: {model_dir}")

當然,你也可以從HuggingFace上下載。
單卡部署:
vllm serve /root/autodl-tmp/models/Qwen/Qwen3___5-2B --port 8000
多卡並行:
vllm serve --model /root/autodl-tmp/models/Qwen/Qwen3.5-2B --port 8000 --tensor-parallel-size 4

from openai import OpenAIclient = OpenAI(
base_url="http://localhost:8000/v1/",
api_key="EMPTY"
)
response = client.chat.completions.create(
model="qwen3.5-2b",
messages=[
{"role": "user", "content": "你好,請介紹一下你自己"}
],
temperature=1.0,
top_p=0.95,
top_k=40
)
print(response.choices[0].message.content)
---
## 七、方案二:LMDeploy 部署實戰
### 7.1 環境安裝
```bash
# 創建虛擬環境
conda create -n lmdeploy python=3.11 -y
conda activate lmdeploy
# 安裝 LMDeploy
pip install lmdeploy[all]
# 昇騰環境需額外安裝
pip install dlinfer-ascend
lmdeploy serve api_server /root/autodl-tmp/models/Qwen/Qwen3___5-2B --server-port 23333
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:23333/v1/",
api_key="suibianxie"
)
response = client.chat.completions.create(
model="/root/autodl-tmp/models/Qwen/Qwen3.5-2B",
messages=[
{"role": "user", "content": "你好,請介紹一下你自己"}
],
temperature=1.0,
top_p=0.95,
top_k=40
)
print(response.choices[0].message.content)
# 思路:優先用“量化版本”降低顯存壓力(不同項目支持的量化路線不同)
# - 若使用 LMDeploy 的量化/轉換流程,可在 convert 階段配置量化策略(示例寫法以 LMDeploy 文檔為準)
lmdeploy convert qwen3.5-2b \
Qwen/Qwen3.5-2B \
--dst-path /data/models/qwen3.5-2b-turbomind-int4 \
--quant-policy 4 \
--tp 1
目標: 提供最佳實踐參數
內容要點:
根據官方文檔,推薦使用以下參數:
{
"temperature": 1.0,
"top_p": 0.95,
"top_k": 40,
"max_tokens": 2048
}
You are a helpful assistant.
| 場景 | 推薦方案 |
|---|---|
| 高併發生產環境 | vLLM |
| 資源受限/量化需求 | LMDeploy |
| 快速驗證/開發 | Ollama |
| 國產硬體環境 | LMDeploy + 昇騰 NPU |