🔧 阿川の電商水電行

Shopify 顧問、維護與客製化

💡

小任務 / 單次支援方案

單次處理 Shopify 修正／微調

⭐️

維護方案

每月 Shopify 技術支援 + 小修改 + 諮詢

🚀

專案建置

Shopify 功能導入、培訓 + 分階段交付

👉 瞭解詳情 / 免費諮詢

小編精選 - 技術文章翻譯 · 01月29日

使用 Ollama、vLLM 或 Transformers 在本地安裝 DeepSeek-R1 的逐步指南

DeepSeek-R1 作為一個強大的開源推理模型在 AI 社群中掀起了波瀾，它提供的先進功能可以挑戰 OpenAI 的 o1 等行業領導者，而無需高昂的價格。此尖端模型建立在專家混合 (MoE) 架構之上，具有高達 6,710 億個參數，同時在每次前向傳遞期間僅有效啟動 370 億個參數。這種方法有助於平衡性能和效率，並使模型具有高度可擴展性和成本效益。 DeepSeek-R1 的獨特之處在於其獨特的強化學習 (RL) 方法，使其能夠自主發展思想鏈推理、自我驗證和反思。這些品質使其成為解決數學、編碼和邏輯推理等不同領域的複雜挑戰的特殊工具。

與傳統的LLMs不同，DeepSeek-R1 可以更好地洞察其推理過程，並在關鍵基準上提供最佳化的性能。

模型基準-1

模型基準2

DeepSeek-R1 在多項基準測試中均優於 OpenAI 的 o1 和 Claude Sonnet 3.5 等頂級模型。

型號對比圖

網路上有許多方法可以在您的電腦（或虛擬機器）上本機安裝 DeepSeek-R1。在本指南中，我們將介紹在您的電腦上快速設定和執行此模型的三種最佳和最簡單的方法。讀完本文後，您將能夠深思熟慮地決定哪種方法最適合您的要求。

先決條件

執行 DeepSeek-R1 模型的最低系統需求：

磁碟空間：500 GB（可能因型號而異）
安裝了 Jupyter Notebook 或 Nvidia Cuda。
依模型類型的不同，GPU配置需求如下：

模型先決條件圖表

我們建議您截取此圖表的螢幕截圖並將其保存在某個位置，以便您可以在嘗試模型之前快速找到 GPU 先決條件。

本地安裝 DeepSeek-R1 的逐步過程

出於本教學的目的，我們將使用NodeShift提供的 GPU 驅動的虛擬機，因為它以非常實惠的成本提供高計算虛擬機，其規模滿足 GDPR、SOC2 和 ISO27001 要求。此外，它還提供直覺且用戶友好的介面，使初學者可以更輕鬆地開始雲端部署。但是，您可以隨意使用您選擇的任何雲端供應商，並按照本教學課程其餘部分的相同步驟進行操作。

第 1 步：設定 NodeShift 帳戶

造訪app.nodeshift.com並填寫基本詳細資料來建立帳戶，或繼續使用您的 Google/GitHub 帳戶進行註冊。

如果您已經有帳戶，請直接登入您的儀表板。

圖片-step1-1

步驟2：建立GPU節點

存取您的帳戶後，您應該會看到一個儀表板（見圖），現在：

1) 導覽至左側選單。

2) 點選GPU 節點選項。

圖片-step2-1

3) 點擊「開始」開始建立您的第一個 GPU 節點。

這些 GPU 節點是 NodeShift 提供的 GPU 驅動的虛擬機器。這些節點是高度可自訂的，讓您可以根據需要控制從 H100 到 A100 的 GPU、CPU、RAM 和儲存的不同環境配置。

圖-步驟2-2

步驟 3：選擇 GPU 配置（型號、區域、儲存）

1) 在本教學中，我們將使用 RTX 4090 GPU，但是，您可以根據需要選擇任何 GPU。

2) 同樣，我們將透過滑動滑桿選擇 700GB 儲存。您也可以從可用區域中選擇您希望 GPU 駐留的區域。

圖-步驟3-1

第 4 步：選擇 GPU 配置和身份驗證方法

1) 選擇所需的配置選項後，您將看到您所在區域中根據（或非常接近）您的配置的可用虛擬機器。在我們的範例中，我們將選擇具有 64 個 vCPU/129GB RAM/700 GB SSD 的 2x RTX 4090 GPU 節點。

圖-步驟4-1

接下來，您需要選擇一種身份驗證方法。有兩種方法可用：密碼和 SSH 金鑰。我們建議使用 SSH 金鑰，因為它們是更安全的選擇。要建立一個，請存取我們的官方文件。

圖-步驟4-2

第 5 步：選擇影像

最後一步是為虛擬機器選擇一個映像，在我們的例子中是Nvidia Cuda ，我們將透過 Ollama 和 vLLM 部署並執行模型的推理。如果您使用 Transformer 進行部署，請選擇 Jupyter Notebook 映像。

圖-步驟5-1

就是這樣！您現在已準備好部署節點。完成配置摘要，如果看起來不錯，請按一下「建立」以部署節點。

圖-步驟5-3

圖-步驟5-4

步驟 6：使用 SSH 連線到活動計算節點

1）一旦建立節點，它將在幾秒鐘或一分鐘內部署。部署後，您將看到綠色的「正在執行」狀態，這意味著我們的運算節點已準備好使用！

2) 一旦您的 GPU 顯示此狀態，導航到右側的三個點，按一下「使用 SSH 連線」 ，然後複製顯示的 SSH 詳細資料。

圖-步驟6-1

複製詳細資訊時，請依照下列步驟透過 SSH 連線到正在執行的 GPU VM：

1) 打開終端，貼上 SSH 命令並執行它。

在某些情況下，您的終端可能會在連接之前徵得您的同意。輸入“是”。
將出現提示要求輸入密碼。輸入 SSH 密碼，您應該已連線。

輸出：

圖-步驟6-2

使用Ollama安裝

Ollama 是一個用戶友好的選項，可透過最少的配置在本地快速執行 DeepSeek-R1。它最適合不需要大量優化或擴展的個人或小型專案。

在開始安裝步驟之前，請隨時使用以下命令檢查您的 GPU 配置詳細資訊：

nvidia-smi

輸出：

影像-ollama-1

第一種安裝方法是透過 Ollama。若要使用 Ollama 安裝 DeepSeek-R1，請依照以下步驟操作：

1）安裝奧拉馬

curl -fsSL https://ollama.com/install.sh | sh

輸出：

影像-ollama-2

2）透過檢查版本確認安裝。

ollama --version

輸出：

影像-ollama-3

開始奧拉馬。

安裝完成後，我們將在目前終端機中啟動 Ollama 伺服器，並在新終端機中執行其餘操作。

ollama serve

輸出：

現在我們的 Ollama 伺服器已經啟動，讓我們安裝模型。

4) 開啟新的終端機視窗並執行 ollama 指令來檢查一切是否正常運作並查看 Ollama 指令清單。

輸出：

影像-ollama-4

使用以下指令執行 DeepSeek-R1 模型。

（將<MODEL_CODE>替換為您首選的模型類型，例如70b ）

ollama run deepseek-r1:<MODEL_CODE>

輸出：

影像-ollama-5

該模型需要一些時間才能完成下載；一旦完成，我們就可以繼續進行模型推理。

6）給出模型推理的提示。

下載完成後，ollama 將自動開啟一個控制台供您輸入並向模型發送提示。您可以在這裡與模特兒聊天。例如，它針對下面給出的提示產生了以下回應（如圖所示）：

“解釋一下 monorepos 和turborepos 之間的區別”

輸出：

影像-ollama-6

影像-ollama-7

影像-ollama-8

使用 vLLM 安裝

vLLM 專為高效推理而設計，具有最佳化的記憶體使用和高吞吐量，這使其成為生產環境的理想選擇。如果您需要在考慮效能和成本效率的情況下為大型應用程式提供服務，請選擇此選項。

在接下來的步驟中，您將了解如何使用 vLLM 安裝 DeepSeek-R1。

確保您有一個新伺服器來執行此設定。如果您已經使用 Ollama 安裝了該模型，則可以跳過此方法或將其安裝在新伺服器上以防止記憶體不足。

1）確認Python是否已安裝。

python3 -V

輸出：

圖像-vllm-1

2）安裝點。

apt install -y python3-pip

輸出：

圖像-vllm-2

使用rustup安裝 Rust 和 Cargo 套件作為vLLM的依賴項。

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

輸出：

圖像-vllm-3

圖像-vllm-4

3）確認安裝

rustc --version
cargo --version

輸出：

圖像-vllm-5

4）安裝vLLM

pip install vllm

輸出：

圖像-vllm-6

圖像-vllm-7

如上圖所示，由於變壓器版本不相容，您可能在安裝過程中遇到錯誤。若要解決此問題，請執行以下命令：

pip install transformers -U

輸出：

圖像-vllm-8

修復錯誤後，再次執行vllm安裝命令，應該可以正常下載。

載入並執行模型。

在本教學的範圍內，我們將使用 vLLM 來執行DeepSeek-R1-Distill-Llama-8B模型。在命令中，不要忘記包含--max_model 4096以限制回應中的令牌大小；否則，伺服器可能會耗盡記憶體。

vllm serve "deepseek-ai/DeepSeek-R1-Distill-Llama-8B" --max_model 4096

輸出：

圖像-vllm-9

打開一個新終端並使用以下命令呼叫模型伺服器。

將“內容”屬性替換為您的提示。例如，我們的提示是「告訴我茶的配方」。

curl -X POST "http://localhost:8000/v1/chat/completions" \
    -H "Content-Type: application/json" \
    --data '{
        "model": "deepseek-ai/DeepSeek-R1",
        "messages": [
            {
                "role": "user",
                "content": "Tell me the recipe for tea"
            }
        ]
    }'

輸出：

圖像-vllm-10

使用 Transformer 安裝

Transformers 為 DeepSeek-R1 的微調和實驗提供了最大的靈活性和控制。對於需要為其特定用例自訂模型並嘗試各種訓練或推理配置的開發人員和研究人員來說，它是最佳選擇。

在本節中，您將學習使用 Transformer 安裝模型。我們將在 Jupyter Notebook 上使用 Python 程式碼安裝並執行模型。

1) 要在遠端伺服器上使用內建的 Jupyter Notebook 功能，請按照相同的步驟（步驟 1 - 步驟 6 ）建立新的 GPU 實例，但這次，在「選擇」中選擇Jupyter Notebook選項而不是 Nvidia Cuda映像部分並部署GPU。

影像轉換器-1

GPU 執行後，按一下「使用 SSH 連線」以在瀏覽器上開啟 Jupyter Notebook 會話。

影像轉換器-2

打開 Python 筆記本。

影像轉換器-3

安裝依賴項以使用 Transformer 執行模型。

!pip install transformers accelerate

輸出：

影像轉換器-4

使用 Transformers 的管道載入並執行模型。

為了示範此方法，我們執行DeepSeek-R1-Distill-Qwen-1.5B模型。您可以根據要求將其替換為您喜歡的。

# Use a pipeline as a high-level helper
from transformers import pipeline

messages = [
    {"role": "user", "content": "How can you help me?"},
]
pipe = pipeline("text-generation", model="deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B")
pipe(messages)

輸出：

影像轉換器-5

結論

在本指南中，我們探索了三種不同的本機安裝DeepSeek-R1 的方法- Ollama、vLLM 和Transformers，每種方法都根據您的要求（無論是易用性、效能最佳化還是靈活性）提供獨特的優勢。透過了解這些方法，您可以以最適合您的工作流程的方式有效部署 DeepSeek-R1。透過 NodeShift Cloud，管理此類部署變得更加簡化，提供強大的基礎設施來簡化設定並增強可擴展性，確保為希望以最小的營運開銷利用 DeepSeek-R1 強大功能的開發人員提供無縫體驗。

有關 NodeShift 的更多資訊：