Redis 作者反駁「中國模型之所以強,是因為透過 API 蒸餾了美國模型」

最近,antirez(Salvatore Sanfilippo,Redis 作者)發布了一些內容,核心就是反駁一個說法:「中國模型之所以強,主要是因為透過 API 蒸餾了美國模型。」

他認為這種說法在機器學習原理上站不住腳,甚至只是「美國實驗室的行銷話術」,或是對機器學習的誤解。

image-20260616145305788

antirez 的意思是:有些人把中國開源/閉源模型的進步,簡單歸因於「偷偷用 GPT/Claude API 生成資料來蒸餾」,這在嚴格的機器學習意義上是不成立的。

實際上也是大家對於定義的不一致,這個後面就可以理解。

在他看來,API 蒸餾在嚴格意義上不可能做到白盒/軟蒸餾,因為:

  • 真正的蒸餾需要大量存取 teacher 的完整 logits(機率分佈)、Chain-of-Thought 推理軌跡、內部表示等
  • 商業 API 只回傳最終文字,完全拿不到這些內部資訊
  • 他把 API 蒸餾比作「只看到複雜曲面上的幾個點,就想復刻整個曲面」,這在數學上接近科幻

所以白盒蒸餾閉源專案基本是不可能的,記住,是白盒(軟的),因為白盒蒸餾需要讓 student 不僅輸出一樣,還要讓內部「思考過程」和知識表示盡量接近 teacher。

其次是,黑盒(硬蒸)能做,但作用有限

  • 用 API 生成資料做 SFT(Alpaca/Vicuna 那類),確實可以改善「回覆風格」、填補狹窄知識缺口,或是讓模型更會遵循特定格式
  • 但是無法創造 frontier 級別的通用能力,真正強大的底層能力來自海量預訓練(萬億 token 級別的資料 + 巨大 compute)
  • 他明確說,即使你有 teacher 生成的 trace,沒有 CoT 等內部資訊,也只是在「調整風格,或頂多補一些非常小的知識缺口」

除非你只是拿來刷基準、刷榜單,這樣確實可以把榜單資料蒸得好看一點,但實戰還是很拉跨。

再者,即使有完整模型存取,蒸餾 frontier 模型也極難

  • 很多 frontier 中國模型已經開源,但包括歐洲實驗室在內的很多團隊,依然很難訓練出與它們同等水準的模型
  • 這說明蒸餾/復刻不是「有資料就能輕鬆複製」

image-20260616150256395

所以他覺得,中國模型比美國模型落後的原因,真正的差距更多來自 compute deficit(算力取得限制),而不是單純的技術抄襲或蒸餾,他不否認中國模型目前的實際能力差距,但堅決反對把這種實力主要歸因於「蒸餾美國模型」

不過,實際上現在黑盒蒸餾可以規模化,也能有效遷移部分任務能力、輸出風格、格式遵循和一定程度的推理模式,所以被用的其實還是挺多的,但確實沒辦法真的複製 teacher 的能力

當然,也有人反對說:「用原始 LLM responses 做 distillation 是完全可以的,只需要 API 存取權限」,並舉例 Alpaca 和 Vicuna 就是這麼訓練出來的。

這種方式不需要 teacher 暴露任何內部 logits 或 hidden states,只需要 teacher 生成的最終文字 responses,但效果肯定好不到哪裡去。

說回蒸餾,其實 antirez 想表達的意思裡,有一部分是在說「蒸餾」這個詞目前有點被嚴重濫用和誤解了,大家口頭說的「蒸餾」,常常把兩種完全不同的技術混在一起說

  • Hard Distillation(硬蒸餾/黑盒):只用 teacher 生成的離散 token 序列(responses)訓練 student,用標準交叉熵損失,類似前面說的 Alpaca 和 Vicuna 采用的方式
  • Soft Distillation(軟蒸餾/白盒):需要 teacher 的完整機率分佈(logits),透過 KL 散度讓 student 模仿 teacher 的軟標籤,這需要白盒存取或 API 暴露 logits,目前主流商業 API 基本都不提供

實際上蘋果這次發布 Apple Foundation Models 就是一個 distillation-based refinement,不過更接近硬蒸餾(不完全),因為蘋果說的是,在 post-training/refinement 階段,使用了 Gemini frontier models 的 outputs 進行精煉,也就是用 Gemini frontier model 生成的 outputs(responses)來精煉/對齊自己的模型。

另外,2026 年的論文《Memorization Dynamics in Knowledge Distillation for Language Models》(arxiv.org/pdf/2601.15394)也明確區分了這兩者的不同,也提到目前 hard distillation 在黑盒 API 場景下是可行的常用方法,只是會比 soft distillation 繼承更多 teacher 特有的記憶樣本

所以如果要說硬蒸餾行不行?肯定是可以的,只是它的可控程度、成本和效果肯定差很多。

姚順宇大佬在訪談裡也提到過「硬蒸/聰明的蒸」在實務策略層面的差異,從工程視角上看:

  • 簡單粗暴:直接讓 Claude/GPT 大量生成 token,然後一股腦塞進自己模型裡強制訓練,大佬的評價是 「商業上也不是很道德,治理上來說也比較愚蠢」,這說明公司「沒有想明白也沒有方向」,因為沒有資料篩選、沒有策略、沒有把 teacher 當成工具,只是當成「資料印表機」
  • 聰明的蒸:把強模型當成輔助工具和評估者,有策略、有目的性地融入自己的訓練系統,比如:

    • 資料篩選高品質 synthetic data、用 teacher 做 reward model/verifier、multi-agent 協作生成資料、真實資料配合 synthetic 資料混合、迭代式 self-improvement 等

簡單來說就是:

  • 粗暴硬蒸 = 低水平重複(just dump data)
  • 聰明的蒸 = 高水平工程(build a smart data flywheel + training system)

當時 antirez 認為不行的大部分原因,是基於白盒/軟蒸餾;他覺得中國模型的真實進步主要來自自己的算力投入、資料工程和研究工作,而不是透過 API 就能輕鬆「蒸餾」出 frontier 能力,如果把後者當成主要解釋,既違反機器學習基本原理,也低估了真正打造強模型的難度。

所以討論出現分歧的原因也在這裡,雖然都叫「蒸餾」,但是白盒/軟蒸餾被技術圈認為才是真正的蒸餾,而黑盒/硬蒸餾這種只用 teacher 生成的文字 outputs 做 SFT 的做法叫做 Response Distillation。

所以蒸餾也分專業領域和大眾領域,這也是存在分歧的原因,大概差別就是:

  • Soft Distillation(軟蒸餾/白盒)
    • 讓 student 去模仿 teacher 的完整機率分佈(logits),不只是學最終答案
    • Teacher 輸出不是硬標籤(one-hot),而是經過 temperature scaling 的軟機率分佈
    • 學生能學到「暗知識」(dark knowledge):為什麼 teacher 認為 A 的機率是 0.7、B 是 0.2、C 是 0.1,而不是只簡單告訴它是 A

當然,嚴格來說,soft distillation 的「軟」主要是機率分佈,不是自然語言思考過程,老師不是真的告訴學生「因為……」,而是告訴學生:「在所有候選 token/class 裡,我對 A、B、C 的機率分別是多少。」

  • Hard Distillation(硬蒸餾/黑盒)
    • 只用 teacher 生成的離散 token 序列(最終輸出文字),用標準交叉熵訓練 student
    • 相當於把 teacher 當成「老師傅」生成 pseudo-label,然後 student 像正常 SFT 一樣學這些資料

說白話就是:

  • Soft Distillation(軟蒸餾/白盒)老師不只寫答案,還說出思考過程和信心:「我算出 17 的機率 85%,因為……」,學生學到深層思考和暗知識,更聰明
  • Hard Distillation(硬蒸餾/黑盒)老師只在黑板上寫最終答案:「10+7=17」,學生反覆抄答案,學會最終結果和格式,但不知道老師是怎麼算的

也就是一個抄思考過程,一個抄答案。

不過日常裡大家其實也不會理解那麼多,也不會區分那麼多,所以反正我說蒸餾的時候,也不怎麼區分這個,所以很多時候也會被吐槽、被陰陽,不過不重要,重要的是你怎麼看?

只是我也同意,純硬蒸是做不出 DeepSeek 的,這一點 antirez 毫無爭議是對的。


原文出處:https://juejin.cn/post/7651812581206491142


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝16   ❤️1
492
🥈
我愛JS
1
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
📢 贊助商廣告 · 我要刊登