小編精選 - 技術文章翻譯 · 04月13日

阿里二面被刷了！被問「1000 萬封簡訊 1 小時內發完，怎麼設計執行緒池？」面試官：你管這叫執行緒池調優？

阿里二面掛了！被問「1000 萬簡訊 1 小時發完，怎麼設計執行緒池？」, 面試官：你管這叫執行緒池調優？

> 千萬級推送不僅考參數調優，更考架構防禦！本文拆解 1000 萬簡訊 1 小時發完的真實現場：從 N_threads = N_cpu × U_cpu × (1 + W/C) 黃金公式，到動態監控調優，再到防止 OOM 的「生產級」拒絕策略。文末附帶 P7 級面試套路模板，助你掃平執行緒池深坑。

寫在開頭：

前兩天有個在大廠搬磚的兄弟找我吐槽，說面試掛在了「執行緒池」上。

面試官沒問那些死記硬背的原理，直接丟了一個業務題：

「我們要發 618 行銷簡訊，1000 萬條，要求 1 小時內發完。你打算怎麼設計執行緒池？核心參數給多少？拒絕策略選哪個？」

這哥們沒多想：「簡單啊，算一下 1 小時 3600 秒，每秒發 2800 條。直接搞個 FixedThreadPool，執行緒數開到 500，隊列給大一點不就行了？」

面試官冷笑一聲，連追三問：

「FixedThreadPool 預設隊列是 LinkedBlockingQueue，長度是 Integer.MAX_VALUE（近似無界），千萬級資料還沒發完，記憶體就 OOM 了，你負責？」
「如果簡訊供應商限流了，你的任務積壓在隊列裡，應用重啟任務全丟了怎麼辦？」
「你怎麼證明你配的執行緒數是最優的？是拍腦袋想的，還是有數據支撐？」

他瞬間原地石化。

其實，這道題考的是「高併發下的資源掌控力」。今天 Fox 帶你拆解執行緒池的 3 種實戰境界。

在大廠規範裡，嚴禁使用 Executors.newFixedThreadPool 或 newCachedThreadPool。

OOM 隱患： 預設的無界隊列能塞到 Integer.MAX_VALUE 的任務數量。在 1000 萬資料的衝擊下，還沒等到執行緒處理，你的 JVM 堆記憶體就先爆了。
資源耗盡： CachedThreadPool 允許創建的執行緒數也是無上限，瞬間的高併發能直接把 CPU 100% 跑滿，甚至耗盡系統資源。

Fox 的結論：生產環境必須手動建立 ThreadPoolExecutor，且必須配合有界隊列（bounded queue）。

面試官問你執行緒數給多少，千萬別直接說 200 或 500。你要先問：「這任務是 CPU 密集型還是 IO 密集型？」

簡訊推送涉及網路呼叫，屬於典型的 IO 密集型。

根據經驗公式：

N_threads = N_cpu × U_cpu × (1 + W/C)

實戰落地：對於千萬級推送，通常 W/C 很大，建議初始執行緒數設為 2 × N_cpu 起步，並根據壓測結果調整。

參數是「死」的，流量是「活」的。大廠 P7 的標準做法是：使用「動態執行緒池」。

Fox 提示：業界著名的開源專案 Hippo4J 或 DynamicTp 就是做這件事的，面試時提一句加分不少。

當 1000 萬資料湧入，執行緒池滿了，拒絕策略（RejectedExecutionHandler）選哪個？

AbortPolicy（預設）：直接丟出例外，千萬別選，資料直接丟失。
CallerRunsPolicy（推薦）：讓提交任務的執行緒（例如撈資料的執行緒）自己去執行。這其實是一種「天然的背壓（Backpressure）」。提交端自己去發簡訊，就沒空再去資料庫撈新任務，從而減緩任務產生速度，給執行緒池喘息的機會。

很多人應該還記得我寫過：CallerRunsPolicy（回退給呼叫者執行）是個坑，因為它會阻塞主執行緒。但！在千萬級推送這種「離線批量場景」下，這個「坑」反而成了神技。

在線 Web 場景（避坑）：如果是處理使用者請求，絕對不能用它，否則 Tomcat 執行緒被佔滿，整個網站會直接卡死。
離線批量場景（神器）：我們從 DB 裡撈千萬級資料往執行緒池塞。如果池子滿了，觸發 CallerRunsPolicy，讓「撈資料的執行緒」自己去發簡訊。
高階奧義：天然背壓（Backpressure）。當「生產者」被迫去做「消費者」的工作時，它就沒空再去撈新資料了。這會自動減緩任務產生速度，給執行緒池喘息時間，徹底規避 OOM 風險。