小編精選 - 技術文章翻譯 · 06月09日

在驅逐中存活：如何在 GKE 上建構具中斷韌性的 AI 工作負載

title: 在被驅逐中倖存：如何在 GKE 上建構可抵禦中斷的 AI 工作負載
published: true
description: 學習如何在 Google Kubernetes Engine（GKE）上建構可抵禦中斷的 AI 工作負載策略。
tags: kubernetes, ai, gke, googlecloud
cover_image: https://dev-to-uploads.s3.amazonaws.com/uploads/articles/ht3q28btunq9lofna1k1.png

Use a ratio of 100:42 for best results.

published_at: 2026-05-20 20:22 +0000

你已經把所有事情都做對了。你已將龐大的模型訓練工作容器化，部署到 Google Kubernetes Engine（GKE），還巧妙地把它導向 Spot VM 節點池，節省高達 90% 的運算成本。

一切順利運作了 38 小時。接著，一位優先順序更高的隨需客戶需要容量，Google Cloud 回收了你底層的 Spot VM，而你的節點就此消失。

無論你是使用可搶占的 Spot VM 來省錢，還是利用 動態工作負載排程器（Dynamic Workload Scheduler, DWS） 來排隊取得稀缺的 GPU，你都是建立在短暫存在的運算資源之上。這些硬體終究會被拿走。若要在未承諾容量上成功執行關鍵 AI 工作負載，你的應用程式架構必須假設失敗是必然會發生的。

以下是一份在 GKE 上建構可被中斷工作負載的實用指南。

1. 接住警告

當 Google Cloud 回收 Spot VM 時，並不是直接立刻拔掉電源線。它會向底層節點發送一個 ACPI 訊號，開始關機流程。Kubernetes 會攔截這個訊號，並將其轉換為直接傳送給你執行中容器的 SIGTERM 訊號。

在 SIGTERM 與最終致命的 SIGKILL 之間，你有一段寬限期（非系統 Pod 最長可達 15 秒）。

你的應用程式必須明確監聽這個訊號。當接收到時，程式應立即停止接受新的批次，完成目前的迴圈，將所有記憶體中的資料寫入磁碟，並以 0（成功）的狀態碼結束。

以下是一個用 Python 接收此訊號的簡單範例：

import signal
import sys
import time

def handle_sigterm(signum, frame):
    print("Received SIGTERM. Initiating graceful shutdown...")
    # 1. 停止處理新資料
    # 2. 將記憶體資料寫入持久化儲存空間
    # 3. 儲存最後的檢查點
    print("State saved. Exiting cleanly.")
    sys.exit(0)

# 註冊訊號處理器
signal.signal(signal.SIGTERM, handle_sigterm)

# 你的主要訓練迴圈
print("Starting training loop...")
while True:
    # 訓練模型...
    time.sleep(1)

2. 將檢查點外部化

如果你的容器死亡，裡面的本機檔案系統也會一併消失。為了在中斷後仍能存活，你必須定期將進度（模型權重、最佳化器狀態、epoch 計數器等）儲存到外部儲存位置。

Cloud Storage（GCS） 是 Google Cloud 上常見的解決方案。

頻繁儲存： 決定檢查點儲存的間隔，平衡遺失工作的成本與寫入儲存空間的額外負擔。每個 epoch 儲存一次，或每隔幾千個 step 儲存一次都很常見，但仍需依你的需求而定。
保持同區域： 確保你的 GCS bucket 與 GKE 叢集位於相同區域（例如 us-central1），以降低延遲並避免對外資料傳輸費用。
續跑，不要重來： 容器啟動腳本首先應該做的事，就是檢查那個 GCS bucket。如果 bucket 中存在檢查點，就將其載入，並從那個精確步驟繼續執行。