阿川私房教材:
學 JavaScript 前端,帶作品集去面試!

63 個專案實戰,寫出作品集,讓面試官眼前一亮!

立即開始免費試讀!

標題:“谷歌打噴嚏,全世界都會感冒!”

已發布:真實

描述:「Google雲端的 IAM 服務故障引發了全球連鎖反應——Cloudflare 癱瘓,Anthropic 業務中斷,並暴露出我們系統之間的緊密聯繫。本文將逐分鐘剖析此次故障,揭示一個漏洞如何波及基礎設施、AI 服務和零信任平台。從根本原因分析到真正重要的工程經驗,本文將帶您了解網路上最安靜的故障。」

標籤: 新聞、 程式設計、 webdev、 AI

canonical_url:"https://forgecode.dev/blog/gcp-cloudflare-anthropic-outage/?utm\_source=devto&utm\_medium=blog&utm\_campaign=canonical\_url&utm\_content=canonical\_link

封面圖:“https://dev-to-uploads.s3.amazonaws.com/uploads/articles/3s8pd5i7eme112amtcrt.png


TL;DR

谷歌雲端的全球 IAM 服務於太平洋時間 6 月 12 日上午 10:50發生故障,導致數十款GCP 產品驗證失敗。 Cloudflare 的 Workers KV(依賴Google託管的後端儲存)也遭遇同樣的故障,導致 Access、WARP 和其他零信任功能失效。在 GCP 上執行的 Anthropic 出現檔案上傳遺失,錯誤率上升。七個半小時後,全面緩解措施完成,所有服務恢復正常。讓我們來剖析這起連鎖反應。

Google

  1. 時間軸概覽

| 時間(PT) | 訊號 | 我們看到的 |

|-----------|--------------------------------|--------------------------------------------------------------------------------|

| 10:51 | 內部警示 | GCP SRE 從 IAM 端點接收 5xx 峰值 |

| 11:05 | DownDetector | Gmail、Drive、Meet 用戶報告激增 |

| 11:19 | Cloudflare 狀態 | “調查大範圍存取故障” |

| 11:25 | 人類狀態 | 停用圖像和檔案上傳以減少錯誤量 |

| 12:12 | Cloudflare 更新 | 根本原因歸咎於第三方 KV 依賴項 |

| 12:41 | Google 更新 | 緩解措施已推廣至 IAM 車隊,大多數區域恢復健康 |

| 13:30 | Cloudflare 恢復綠色 | Access、KV 和 WARP 在全球恢復上線 |

| 14:05 | 人為綠 | 完全康復,克勞德穩定 |

| 15:16 | Google 更新 | 截至太平洋夏令時間 13:45,大多數 GCP 產品已完全恢復 |

| 16:13 | Google 更新 | 僅對 Dataflow、Vertex AI、PSH 的剩餘影響 |

| 17:10 | Google 更新 | 除 us-central1 外,Dataflow 已完全解析 |

| 17:33 | Google 更新 | 個人化服務健康影響已解決 |

| 18:18 | 谷歌最終決定 | Vertex AI 線上預測全面恢復,一切正常 |

| 18:27 | Google 事後分析 | 內部調查正在進行中,後續將進行分析 |

  1. Google Cloud 內部發生了什麼

Google

GCP 的身份和存取管理 (IAM)是每個 API 呼叫都必須經過的前門。當負責簽發和驗證 OAuth 及服務帳戶令牌的叢集出現問題時,影響範圍將涵蓋儲存、運算、控制平面等幾乎所有領域。

GCP 狀態頁面

圖 1:第一個小時內的 GCP 狀態頁面

2.1 疑似觸發因素

  • Google 的初始事件摘要指的是 IAM 後端推出問題,表明 IAM 服務的例行更新引入了一個錯誤,該錯誤在標準金絲雀檢查能夠捕獲它之前就傳播開了。

  • 據報道,谷歌內部的工程師回滾了二進位檔案並清除了錯誤的配置,然後強制跨區域刷新令牌快取。 us-central1 落後了,因為它託管了 IAM 元資料的仲裁分片。

2.2 客戶影響檢查表

清單

  • 雲端儲存:簽章 URL 取得時出現 403 和 500 錯誤

  • Cloud SQL 與 Bigtable:連線開啟時驗證失敗

  • 工作區:Gmail、日曆、間歇性 Meet 503

  • Vertex AI、Dialogflow、Apigee:延遲增加,隨後流量下降

🚀嘗試 AI Shell

>

您的智能編碼伴侶可無縫整合到您的工作流程中。

登入 Forge →

  1. Cloudflare 的依賴鍊式反應

Cloudflare 的 Workers KV 儲存了數十億個鍵值條目,並將它們複製到 270 多個邊緣站點。熱路徑位於 Cloudflare 自己的資料中心,但持久化後端是託管在 Google Cloud 上的多區域資料庫。當 IAM 拒絕新令牌時,對後端儲存的寫入和讀取操作都會逾時。

Cloudflare 狀態

圖 2:Cloudflare 狀態摘錄,突顯 Access、KV 和 WARP 已降級

3.1 多米諾骨牌效應

  • Cloudflare Access 使用 KV 儲存會話狀態 -> 登入循環

  • WARP 將零信任設備狀態儲存在 KV 中 -> 用戶端無法握手

  • 持久化物件( SQLite )依賴 KV 元資料 -> DO 子集失敗

  • 由於 KV 中缺少模型清單,AI Gateway 和 Workers AI 出現冷啟動錯誤

Cloudflare 的事件指揮官宣布橙色程式碼為最高嚴重程度,並與 Google 工程師建立了跨供應商橋樑。一旦 IAM 緩解措施生效,KV 便會重新連接,邊緣網路也會迅速自我修復。

  1. 人類陷入交火

人擇

Anthropic在 GCP 上託管了 Claude。直接失敗的模式是檔案上傳(命中雲端儲存)和圖像視覺功能,而原始文字提示有時會因為快取的代幣而成功。

[12:07 PT] status.anthropic.com: "We have disabled uploads to reduce error volume while the upstream GCP incident is in progress. Text queries remain available though elevated error rates persist."

Anthropic 限制了流量以保持服務部分可用,然後在 Google 的 IAM 佇列穩定後恢復上傳。

  1. 工程師的教訓

課程

  1. 控制平面故障比資料平面故障更嚴重。如果身份驗證失敗,跨區域資料複製也無法挽救你。

  2. 檢查隱藏的依賴關係。 Cloudflare 在邊緣是多雲的,但在堆疊深處仍然是單一供應商的選擇。

  3. 狀態頁面必須快速且真實。谷歌花了將近一個小時才觸發事件標記。與此同時,客戶們還在除錯「幽靈」問題。

  4. 設計一個緊急繞過方案。如果您的身份驗證代理程式(Cloudflare Access)發生故障,您可以暫時繞過它嗎?

  5. 混沌演習仍然很重要。偶爾會發生多供應商事件,必須進行演練。

🚀嘗試 AI Shell

>

您的智能編碼伴侶可無縫整合到您的工作流程中。

登入 Forge →

  1. 仍在等待完整的 RCA

美國無線電公司

內部審查結束後,Google將發布事後分析報告,其中將包含有關故障部署、爆炸半徑範圍和計劃防護措施的詳細資訊。

Cloudflare 通常會在一週內發布取證部落格。請關注 Workers KV 架構和全新冗餘層的具體細節。

汗

圖 3:每個 SRE 連續兩小時都在做的事情——刷新、流汗、重複

  1. 最新分析:Google官方時間表告訴我們什麼

谷歌的詳細事件時間表揭示了外部監控無法看到的幾個重要細節:

7.1 根本原因辨識

  • 太平洋夏令時間 12:41:Google工程師確定了根本原因並採取了緩解措施

  • 太平洋夏令時間 13:16:除 us-central1 地區外,所有地區的基礎設施均已恢復

  • 太平洋夏令時間 14:00:已針對 us-central1 和 multi-region/us 實施緩解措施

us-central1 明顯落後的事實表明,該地區擁有在恢復操作期間需要特殊處理的關鍵基礎設施元件。

7.2 分階段復甦模式

  1. 基礎設施層 (12:41-13:16):除一個區域外,全球範圍內的底層依賴關係已修復

  2. 產品層 (13:45):大多數 GCP 產品已恢復,但仍有一些殘留影響

  3. 專業服務(17:10-18:18):Dataflow 和 Vertex AI 等複雜服務需要更多時間

7.3 長尾效應

即使根本原因已解決,某些服務仍需要額外 5 個多小時才能完全恢復:

  • 資料流:太平洋夏令時間 17:10 前,us-central1 的積壓資料正在清理中

  • Vertex AI:Model Garden 5xx 錯誤持續到太平洋夏令時間 18:18

  • 個人化服務健康:延遲更新至太平洋夏令時間 17:33

這表明連鎖故障將導致恢復債務遠遠超出最初的修復範圍。

Google

8.總結

上午 10:50, Google雲端的一項服務出現 bug,導致全球範圍內的身份驗證服務癱瘓。不到半小時,故障就波及到了 Cloudflare 和 Anthropic。到下午 1:30,一切恢復正常,但這也提醒了網路,我們的依賴關係有多麼錯綜複雜。

密切關注官方的 RCA。同時,更新你的事件應對手冊,測試你的故障轉移方案,並記住,有時雲端的最大危險就是週二的錯誤配置。

請在下面的評論部分讓我知道您對此的看法! !


原文出處:https://dev.to/forgecode/when-google-sneezes-the-whole-world-catches-a-coldthe-full-story-inside-3ep


共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。

阿川私房教材:
學 JavaScript 前端,帶作品集去面試!

63 個專案實戰,寫出作品集,讓面試官眼前一亮!

立即開始免費試讀!