🔧 阿川の電商水電行

Shopify 顧問、維護與客製化

💡

小任務 / 單次支援方案

單次處理 Shopify 修正／微調

⭐️

維護方案

每月 Shopify 技術支援 + 小修改 + 諮詢

🚀

專案建置

Shopify 功能導入、培訓 + 分階段交付

👉 瞭解詳情 / 免費諮詢

小編精選 - 技術文章翻譯 · 07月02日

谷歌打噴嚏，全世界都會感冒！

標題：“谷歌打噴嚏，全世界都會感冒！”

已發布：真實

描述：「Google雲端的 IAM 服務故障引發了全球連鎖反應——Cloudflare 癱瘓，Anthropic 業務中斷，並暴露出我們系統之間的緊密聯繫。本文將逐分鐘剖析此次故障，揭示一個漏洞如何波及基礎設施、AI 服務和零信任平台。從根本原因分析到真正重要的工程經驗，本文將帶您了解網路上最安靜的故障。」

標籤：新聞、程式設計、 webdev、 AI

canonical_url："https://forgecode.dev/blog/gcp-cloudflare-anthropic-outage/？utm\_source=devto&utm\_medium=blog&utm\_campaign=canonical\_url&utm\_content=canonical\_link”

封面圖：“https://dev-to-uploads.s3.amazonaws.com/uploads/articles/3s8pd5i7eme112amtcrt.png”

TL;DR

谷歌雲端的全球 IAM 服務於太平洋時間 6 月 12 日上午 10:50發生故障，導致數十款GCP 產品驗證失敗。 Cloudflare 的 Workers KV（依賴Google託管的後端儲存）也遭遇同樣的故障，導致 Access、WARP 和其他零信任功能失效。在 GCP 上執行的 Anthropic 出現檔案上傳遺失，錯誤率上升。七個半小時後，全面緩解措施完成，所有服務恢復正常。讓我們來剖析這起連鎖反應。

Google

時間軸概覽

| 時間（PT） | 訊號 | 我們看到的 |

|-----------|--------------------------------|--------------------------------------------------------------------------------|

| 10:51 | 內部警示 | GCP SRE 從 IAM 端點接收 5xx 峰值 |

| 11:05 | DownDetector | Gmail、Drive、Meet 用戶報告激增 |

| 11:19 | Cloudflare 狀態 | “調查大範圍存取故障” |

| 11:25 | 人類狀態 | 停用圖像和檔案上傳以減少錯誤量 |

| 12:12 | Cloudflare 更新 | 根本原因歸咎於第三方 KV 依賴項 |

| 12:41 | Google 更新 | 緩解措施已推廣至 IAM 車隊，大多數區域恢復健康 |

| 13:30 | Cloudflare 恢復綠色 | Access、KV 和 WARP 在全球恢復上線 |

| 14:05 | 人為綠 | 完全康復，克勞德穩定 |

| 15:16 | Google 更新 | 截至太平洋夏令時間 13:45，大多數 GCP 產品已完全恢復 |

| 16:13 | Google 更新 | 僅對 Dataflow、Vertex AI、PSH 的剩餘影響 |

| 17:10 | Google 更新 | 除 us-central1 外，Dataflow 已完全解析 |

| 17:33 | Google 更新 | 個人化服務健康影響已解決 |

| 18:18 | 谷歌最終決定 | Vertex AI 線上預測全面恢復，一切正常 |

| 18:27 | Google 事後分析 | 內部調查正在進行中，後續將進行分析 |

Google Cloud 內部發生了什麼

Google

GCP 的身份和存取管理 (IAM)是每個 API 呼叫都必須經過的前門。當負責簽發和驗證 OAuth 及服務帳戶令牌的叢集出現問題時，影響範圍將涵蓋儲存、運算、控制平面等幾乎所有領域。

GCP 狀態頁面

圖 1：第一個小時內的 GCP 狀態頁面

2.1 疑似觸發因素

Google 的初始事件摘要指的是 IAM 後端推出問題，表明 IAM 服務的例行更新引入了一個錯誤，該錯誤在標準金絲雀檢查能夠捕獲它之前就傳播開了。
據報道，谷歌內部的工程師回滾了二進位檔案並清除了錯誤的配置，然後強制跨區域刷新令牌快取。 us-central1 落後了，因為它託管了 IAM 元資料的仲裁分片。

2.2 客戶影響檢查表

雲端儲存：簽章 URL 取得時出現 403 和 500 錯誤
Cloud SQL 與 Bigtable：連線開啟時驗證失敗
工作區：Gmail、日曆、間歇性 Meet 503
Vertex AI、Dialogflow、Apigee：延遲增加，隨後流量下降

🚀嘗試 AI Shell

您的智能編碼伴侶可無縫整合到您的工作流程中。

登入 Forge →

Cloudflare 的依賴鍊式反應

Cloudflare 的 Workers KV 儲存了數十億個鍵值條目，並將它們複製到 270 多個邊緣站點。熱路徑位於 Cloudflare 自己的資料中心，但持久化後端是託管在 Google Cloud 上的多區域資料庫。當 IAM 拒絕新令牌時，對後端儲存的寫入和讀取操作都會逾時。

Cloudflare 狀態

圖 2：Cloudflare 狀態摘錄，突顯 Access、KV 和 WARP 已降級

3.1 多米諾骨牌效應

Cloudflare Access 使用 KV 儲存會話狀態 -> 登入循環
WARP 將零信任設備狀態儲存在 KV 中 -> 用戶端無法握手
持久化物件（ SQLite ）依賴 KV 元資料 -> DO 子集失敗
由於 KV 中缺少模型清單，AI Gateway 和 Workers AI 出現冷啟動錯誤

Cloudflare 的事件指揮官宣布橙色程式碼為最高嚴重程度，並與 Google 工程師建立了跨供應商橋樑。一旦 IAM 緩解措施生效，KV 便會重新連接，邊緣網路也會迅速自我修復。

人類陷入交火

Anthropic在 GCP 上託管了 Claude。直接失敗的模式是檔案上傳（命中雲端儲存）和圖像視覺功能，而原始文字提示有時會因為快取的代幣而成功。

[12:07 PT] status.anthropic.com: "We have disabled uploads to reduce error volume while the upstream GCP incident is in progress. Text queries remain available though elevated error rates persist."

Anthropic 限制了流量以保持服務部分可用，然後在 Google 的 IAM 佇列穩定後恢復上傳。