小編精選 - 技術文章翻譯 · 06月18日

Redis 作者反駁「中國模型之所以強，是因為透過 API 蒸餾了美國模型」

最近，antirez（Salvatore Sanfilippo，Redis 作者）發布了一些內容，核心就是反駁一個說法：「中國模型之所以強，主要是因為透過 API 蒸餾了美國模型。」

他認為這種說法在機器學習原理上站不住腳，甚至只是「美國實驗室的行銷話術」，或是對機器學習的誤解。

antirez 的意思是：有些人把中國開源／閉源模型的進步，簡單歸因於「偷偷用 GPT／Claude API 生成資料來蒸餾」，這在嚴格的機器學習意義上是不成立的。

實際上也是大家對於定義的不一致，這個後面就可以理解。

在他看來，API 蒸餾在嚴格意義上不可能做到白盒／軟蒸餾，因為：

真正的蒸餾需要大量存取 teacher 的完整 logits（機率分佈）、Chain-of-Thought 推理軌跡、內部表示等
商業 API 只回傳最終文字，完全拿不到這些內部資訊
他把 API 蒸餾比作「只看到複雜曲面上的幾個點，就想復刻整個曲面」，這在數學上接近科幻

所以白盒蒸餾閉源專案基本是不可能的，記住，是白盒（軟的），因為白盒蒸餾需要讓 student 不僅輸出一樣，還要讓內部「思考過程」和知識表示盡量接近 teacher。

其次是，黑盒（硬蒸）能做，但作用有限：

用 API 生成資料做 SFT（Alpaca／Vicuna 那類），確實可以改善「回覆風格」、填補狹窄知識缺口，或是讓模型更會遵循特定格式
但是無法創造 frontier 級別的通用能力，真正強大的底層能力來自海量預訓練（萬億 token 級別的資料 + 巨大 compute）
他明確說，即使你有 teacher 生成的 trace，沒有 CoT 等內部資訊，也只是在「調整風格，或頂多補一些非常小的知識缺口」

除非你只是拿來刷基準、刷榜單，這樣確實可以把榜單資料蒸得好看一點，但實戰還是很拉跨。

再者，即使有完整模型存取，蒸餾 frontier 模型也極難：

很多 frontier 中國模型已經開源，但包括歐洲實驗室在內的很多團隊，依然很難訓練出與它們同等水準的模型
這說明蒸餾／復刻不是「有資料就能輕鬆複製」

所以他覺得，中國模型比美國模型落後的原因，真正的差距更多來自 compute deficit（算力取得限制），而不是單純的技術抄襲或蒸餾，他不否認中國模型目前的實際能力差距，但堅決反對把這種實力主要歸因於「蒸餾美國模型」。

不過，實際上現在黑盒蒸餾可以規模化，也能有效遷移部分任務能力、輸出風格、格式遵循和一定程度的推理模式，所以被用的其實還是挺多的，但確實沒辦法真的複製 teacher 的能力。

當然，也有人反對說：「用原始 LLM responses 做 distillation 是完全可以的，只需要 API 存取權限」，並舉例 Alpaca 和 Vicuna 就是這麼訓練出來的。

這種方式不需要 teacher 暴露任何內部 logits 或 hidden states，只需要 teacher 生成的最終文字 responses，但效果肯定好不到哪裡去。

說回蒸餾，其實 antirez 想表達的意思裡，有一部分是在說「蒸餾」這個詞目前有點被嚴重濫用和誤解了，大家口頭說的「蒸餾」，常常把兩種完全不同的技術混在一起說：

Hard Distillation（硬蒸餾／黑盒）：只用 teacher 生成的離散 token 序列（responses）訓練 student，用標準交叉熵損失，類似前面說的 Alpaca 和 Vicuna 采用的方式
Soft Distillation（軟蒸餾／白盒）：需要 teacher 的完整機率分佈（logits），透過 KL 散度讓 student 模仿 teacher 的軟標籤，這需要白盒存取或 API 暴露 logits，目前主流商業 API 基本都不提供

實際上蘋果這次發布 Apple Foundation Models 就是一個 distillation-based refinement，不過更接近硬蒸餾（不完全），因為蘋果說的是，在 post-training／refinement 階段，使用了 Gemini frontier models 的 outputs 進行精煉，也就是用 Gemini frontier model 生成的 outputs（responses）來精煉／對齊自己的模型。

另外，2026 年的論文《Memorization Dynamics in Knowledge Distillation for Language Models》（arxiv.org/pdf/2601.15394）也明確區分了這兩者的不同，也提到目前 hard distillation 在黑盒 API 場景下是可行的常用方法，只是會比 soft distillation 繼承更多 teacher 特有的記憶樣本。

所以如果要說硬蒸餾行不行？肯定是可以的，只是它的可控程度、成本和效果肯定差很多。

姚順宇大佬在訪談裡也提到過「硬蒸／聰明的蒸」在實務策略層面的差異，從工程視角上看：

簡單粗暴：直接讓 Claude／GPT 大量生成 token，然後一股腦塞進自己模型裡強制訓練，大佬的評價是 「商業上也不是很道德，治理上來說也比較愚蠢」，這說明公司「沒有想明白也沒有方向」，因為沒有資料篩選、沒有策略、沒有把 teacher 當成工具，只是當成「資料印表機」
聰明的蒸：把強模型當成輔助工具和評估者，有策略、有目的性地融入自己的訓練系統，比如：
- 資料篩選高品質 synthetic data、用 teacher 做 reward model／verifier、multi-agent 協作生成資料、真實資料配合 synthetic 資料混合、迭代式 self-improvement 等

簡單來說就是：

粗暴硬蒸 = 低水平重複（just dump data）
聰明的蒸 = 高水平工程（build a smart data flywheel + training system）

當時 antirez 認為不行的大部分原因，是基於白盒／軟蒸餾；他覺得中國模型的真實進步主要來自自己的算力投入、資料工程和研究工作，而不是透過 API 就能輕鬆「蒸餾」出 frontier 能力，如果把後者當成主要解釋，既違反機器學習基本原理，也低估了真正打造強模型的難度。

所以討論出現分歧的原因也在這裡，雖然都叫「蒸餾」，但是白盒／軟蒸餾被技術圈認為才是真正的蒸餾，而黑盒／硬蒸餾這種只用 teacher 生成的文字 outputs 做 SFT 的做法叫做 Response Distillation。

所以蒸餾也分專業領域和大眾領域，這也是存在分歧的原因，大概差別就是：

Soft Distillation（軟蒸餾／白盒）
- 讓 student 去模仿 teacher 的完整機率分佈（logits），不只是學最終答案
- Teacher 輸出不是硬標籤（one-hot），而是經過 temperature scaling 的軟機率分佈
- 學生能學到「暗知識」（dark knowledge）：為什麼 teacher 認為 A 的機率是 0.7、B 是 0.2、C 是 0.1，而不是只簡單告訴它是 A

當然，嚴格來說，soft distillation 的「軟」主要是機率分佈，不是自然語言思考過程，老師不是真的告訴學生「因為……」，而是告訴學生：「在所有候選 token／class 裡，我對 A、B、C 的機率分別是多少。」

Hard Distillation（硬蒸餾／黑盒）
- 只用 teacher 生成的離散 token 序列（最終輸出文字），用標準交叉熵訓練 student
- 相當於把 teacher 當成「老師傅」生成 pseudo-label，然後 student 像正常 SFT 一樣學這些資料

說白話就是：

Soft Distillation（軟蒸餾／白盒）老師不只寫答案，還說出思考過程和信心：「我算出 17 的機率 85%，因為……」，學生學到深層思考和暗知識，更聰明
Hard Distillation（硬蒸餾／黑盒）老師只在黑板上寫最終答案：「10+7=17」，學生反覆抄答案，學會最終結果和格式，但不知道老師是怎麼算的