🔧 阿川の電商水電行

Shopify 顧問、維護與客製化

💡

小任務 / 單次支援方案

單次處理 Shopify 修正／微調

⭐️

維護方案

每月 Shopify 技術支援 + 小修改 + 諮詢

🚀

專案建置

Shopify 功能導入、培訓 + 分階段交付

👉 瞭解詳情 / 免費諮詢

小編精選 - 技術文章翻譯 · 09月08日

💥下一代推理引擎：vLLM如何重塑AI服務架構？

本文較長，建議點贊收藏，以免遺失。更多AI大模型應用開發學習視頻及資料，盡在聚客AI學院。

作為分布式大模型推理引擎，vLLM通過分頁注意力、連續批處理等核心技術實現高吞吐與低延遲。今天我將深度解析其架構設計。如果對你有所幫助，記得告訴身邊有需要的朋友。

一、核心引擎架構

1.1 基礎元件

KV快取管理器：採用分頁注意力機制（PagedAttention），將KV快取劃分為固定大小塊（默認16 tokens/塊），透過記憶體池動態分配：

調度器：支持FCFS/優先級調度，維護等待隊列與運行隊列，混合處理預填充與解碼請求
執行器：驅動模型前向傳播，支持即時執行與CUDA圖優化

1.2 推理流程

1）請求預處理：分詞後生成EngineCoreRequest
2）調度階段：

解碼請求優先分配KV塊
預填充請求按令牌預算分塊處理

3）模型執行：

扁平化批次輸入，分頁注意力確保序列隔離

4）採樣與後處理：根據採樣參數生成token，檢測停止條件

二、關鍵技術優化

2.1 分頁注意力（PagedAttention）

塊大小公式：2 block_size num_kv_heads head_size dtype_bytes
內存零碎片：釋放塊回歸資源池實現高效複用

2.2 前綴快取

共享前綴哈希化存儲：對16-token完整塊計算SHA-256哈希
複用機制：後續請求匹配哈希直接調用快取塊

2.3 推測解碼

流程：

草稿模型（N-gram/EAGLE/Medusa）生成k候選token
大模型並行驗證k+1個位置概率
按接受規則輸出有效token

2.4 解耦式P/D架構

預填充節點：處理長提示計算，輸出KV至快取服務
解碼節點：專注token生成，讀取共享KV快取
連接器協調：跨節點KV傳輸實現計算隔離

三、分布式擴展

3.1 多GPU執行（MultiProcExecutor）

張量並行：模型層分片至同節點多GPU
流水線並行：跨節點分層處理長序列
工作進程透過ZMQ實現RPC通信：

3.2 服務層架構

無頭引擎節點：運行DPEngineCoreProc處理計算
API服務節點：

AsyncLLM封裝引擎接口
FastAPI提供REST端點
DP協調器動態負載均衡

請求生命周期：

四、性能優化與基準測試

4.1 關鍵指標

指標	定義
TTFT	首token生成延遲
ITL	token間延遲
TPOT	單token平均處理時間
Goodput	滿足SLO的吞吐量

4.2 性能權衡模型

批大小影響：

小批量：ITL↓，吞吐量↓
大批量：ITL↑，吞吐量↑（至飽和點）

4.3 調優工具

vllm bench latency：測量端到端延遲
vllm bench throughput：壓力測試峰值吞吐
自動SLO優化：動態調整參數滿足延遲約束

最後總結一下

vLLM通過創新記憶體管理、分布式調度與算法優化，在LLM推理場景實現數量級性能提升。其模組化設計支持從單GPU到多節點集群的靈活部署，為高並發AI服務提供基礎架構支撐。当然，主流的LLM推理框架除了vLLM，還有其它幾大框架，具體的選擇根據實際專案需求來定，幾大框架的優勢對比及選型，我這裡也做了一個技術文檔，實力寵粉。粉絲朋友自行領取：《大型語言模型（LLM）推理框架的全面分析與選型指南（2025年版）》

好了，今天的分享就到這裡，點個小紅心，我們下期見。

原文出處：https://juejin.cn/post/7546014854219464743