🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付

引言

敵対性模仿學習的範疇論解釋將會介紹。

近年來,敵對性模仿學習(Generative Adversarial Imitation Learning; GAIL)以及應用於此的RLHF(Reinforcement Learning from Human Feedback),已成為現代AI的根幹技術,如大規模語言模型的微調等。然而,傳統機器學習理論在解釋「這些學習為何會收斂?」這一問題時,卻遇到了名為「凸性」的高牆。本次介紹的備忘錄,正是運用範疇論(Category Theory)這種極具抽象性的數學,為非凸深度學習的世界帶來鮮明的秩序。特別值得一提的是,擴展F.W. Lawvere(洛維爾)的不動點定理至距離空間並與神經網絡的普遍近似定理聯繫起來,這一點在理論及實用解釋上都顯得非常突破。

1. 現有理論的局限性

GAIL/RLHF所面臨的「非凸性」的壁壘

敵對學習(如GAN和GAIL)的目標函數,通常被設定為策略 $\pi$ 與鑑別器 $D$ 的極小極大博弈。
$$\min{\pi} \max{D} V(\pi, D)$$
古典理論使用布勞維爾(Brouwer)的不動點定理或角谷(Kakutani)的不動點定理來證明這場博弈會收斂並存在納什均衡(Nash Equilibrium)。然而,在深度學習的世界中,這些前提條件往往都不成立。為什麼「非凸性」導致現有的不動點定理無法使用呢?

① 布勞維爾的不動點定理的失效

布勞維爾定理的內容是:「從一個緊緻的凸集合 $C$ 至自身的連續函數 $f: C \to C$,必有不動點 $f(x)=x$。」然而,在深度學習的參數空間 $\Theta$ 中,具有良好性能的區域 $C \subset \Theta$ 通常並不是凸的。
$$V(\lambda \theta_1 + (1-\lambda)\theta_2) > \lambda V(\theta_1) + (1-\lambda)V(\theta_2)$$
由於多層神經網絡的非線性性質,兩個優秀解的中間地帶變成「最壞解」的情況屢見不鮮。在集合不是凸的情況下,布勞維爾定理無法適用。

② 角谷的不動點定理與「多峰性」

角谷定理處理的是一點不確定的「對應(set-valued mapping)」。該定理成立的必要條件是,對於某一狀態的最佳反應(Best Response)集合 $G(x)$ 必須始終是非空的凸集合。然而,在RLHF和GAIL中,某個鑑別器所對應的「最佳解」可能會分為兩種完全不同的策略(例如:從右側避開、從左側避開)。在這種情況下,該平均策略(直接插入中間)並不是最佳的,因此最佳反應的集合不會是凸的,這樣一來均衡的存在性就得不到保證。

2. 以「隨伴(伽羅瓦接續)」重新看待優化問題

備忘錄中為了避免非凸性問題,著眼於空間的「形狀(凸性)」,而是聚焦於優化過程的「結構」。生成器($\pi$)與鑑別器($D$)的競爭被設置為在序集合的範疇中作為隨伴函子(Adjoint Functors),即伽羅瓦連接。最佳反應函子 $F, G$:

$F(\pi) := \text{arg} \max_{D} V(\pi, D)$ (對於 $\pi$ 的最強敵手)

$G(D) := \text{arg} \min_{\pi} V(\pi, D)$ (最能欺騙 $D$ 的夥伴)

此時,以下的隨伴關係 $F \dashv G$ 成立。
$$F(\pi) \ge D \iff \pi \le G(D)$$
利用這一結構,不論具體損失函數的形狀(凸性)如何,我們都能將優化的動態本身作為射的性質來進行討論。

3. Lawvere的不動點定理與「距離空間的範疇 Met」

本備忘錄最大的亮點是F.W. Lawvere的不動點定理的擴展。傳統的Lawvere定理存在問題,Lawvere定理提出「如果存在一個編碼 $e: A \to Y^A$ 為全射(能表達所有函數),那麼任何更新規則 $t: Y \to Y$ 都有不動點」。然而,具有有限參數的神經網絡並不能嚴格地表現(全射)所有函數。

突破:普遍近似定理 = 稠密性

在這裡,作者提出了Lawvere於1973年所提出的「距離空間是豐滿範疇」的觀點(距離空間範疇 $Met$)。將神經網絡的普遍近似定理重新解釋為:「在函數空間中的象是 $\epsilon$-稠密 (dense)」,而非「全射」。有鑑於此,論文推導出了以下的近似不動點定理。

定理(近似不動點定理)

如果參數空間 $A$ 到函數空間 $Y^A$ 的射 $e$ 的象是 $\epsilon$-稠密的,則對於任意的利普希茨連續更新規則 $t: Y \to Y$,存在滿足以下條件的近似不動點 $y$。
$$d_Y(y, t(y)) < \epsilon$$

4. 結論:

為什麼表現力越高,學習越會收斂?此理論對GAIL和RLHF所提供的啟示是極其強大的。

  • 「凸性」並非必需:保證學習收斂(達到近似納什均衡)的,並不是風景「碗狀」的特性。
  • 「表現力」促進收斂:如果神經網絡足夠寬且深,且能「稠密」覆蓋函數空間,則作為對角線論法的幾何結論,系統必定會到達穩定點(近似不動點)。
  • 近似的容忍度:不是追求嚴格的不動點($d=0$),而是在模型的近似精度 $\epsilon$ 之內允許收斂的想法,這正恰恰完美地解釋了實用深度學習的行為。

在GAIL和RLHF的實作中,「讓層數加深與擴大能使學習穩定」的經驗法則,可以從範疇論的角度解釋為「稠密性 $\epsilon$ 減少,進而能保證更高精度的近似不動點」。或許,面對「因為非凸而無法在理論上處理」的時代,已經結束了?

參考文獻

  1. 吉田英樹 (2025)。敵對性模仿學習中的納什均衡的範疇論結構分析。
  2. Lawvere, F. W. (1973)。距離空間、廣義邏輯與閉合類別。
  3. Ho, J., & Ermon, S. (2016)。生成對抗模仿學習。

介紹文章

<iframe id="qiita-embed-content6cd0cb56fd97293be516e029fabe3717"></iframe>
<iframe id="qiita-embed-content
86447aa466b01ea07d43281d3ca887a8"></iframe>
<iframe id="qiita-embed-content0b36a0de913b7b5f9ccf396e9e1deb56"></iframe>
<iframe id="qiita-embed-content
6e5b79d71cf7d3d44e6dbe0b7900eac0"></iframe>

結尾

我覺得Cantor的對角線論法與神經網絡的普遍近似定理能透過Lawvere的不動點定理連結起來的瞬間,非常有趣。在非凸的混沌之中潛藏著的,是隨伴與不動點的秩序,也許這正是深度學習的真實面貌。
(真的嗎?)


原文出處:https://qiita.com/momo10/items/097d51405416e93d5132


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝7   💬7   ❤️1
182
🥈
我愛JS
2
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付