敵対性模仿學習的範疇論解釋將會介紹。
近年來,敵對性模仿學習(Generative Adversarial Imitation Learning; GAIL)以及應用於此的RLHF(Reinforcement Learning from Human Feedback),已成為現代AI的根幹技術,如大規模語言模型的微調等。然而,傳統機器學習理論在解釋「這些學習為何會收斂?」這一問題時,卻遇到了名為「凸性」的高牆。本次介紹的備忘錄,正是運用範疇論(Category Theory)這種極具抽象性的數學,為非凸深度學習的世界帶來鮮明的秩序。特別值得一提的是,擴展F.W. Lawvere(洛維爾)的不動點定理至距離空間並與神經網絡的普遍近似定理聯繫起來,這一點在理論及實用解釋上都顯得非常突破。
敵對學習(如GAN和GAIL)的目標函數,通常被設定為策略 $\pi$ 與鑑別器 $D$ 的極小極大博弈。
$$\min{\pi} \max{D} V(\pi, D)$$
古典理論使用布勞維爾(Brouwer)的不動點定理或角谷(Kakutani)的不動點定理來證明這場博弈會收斂並存在納什均衡(Nash Equilibrium)。然而,在深度學習的世界中,這些前提條件往往都不成立。為什麼「非凸性」導致現有的不動點定理無法使用呢?
布勞維爾定理的內容是:「從一個緊緻的凸集合 $C$ 至自身的連續函數 $f: C \to C$,必有不動點 $f(x)=x$。」然而,在深度學習的參數空間 $\Theta$ 中,具有良好性能的區域 $C \subset \Theta$ 通常並不是凸的。
$$V(\lambda \theta_1 + (1-\lambda)\theta_2) > \lambda V(\theta_1) + (1-\lambda)V(\theta_2)$$
由於多層神經網絡的非線性性質,兩個優秀解的中間地帶變成「最壞解」的情況屢見不鮮。在集合不是凸的情況下,布勞維爾定理無法適用。
角谷定理處理的是一點不確定的「對應(set-valued mapping)」。該定理成立的必要條件是,對於某一狀態的最佳反應(Best Response)集合 $G(x)$ 必須始終是非空的凸集合。然而,在RLHF和GAIL中,某個鑑別器所對應的「最佳解」可能會分為兩種完全不同的策略(例如:從右側避開、從左側避開)。在這種情況下,該平均策略(直接插入中間)並不是最佳的,因此最佳反應的集合不會是凸的,這樣一來均衡的存在性就得不到保證。
備忘錄中為了避免非凸性問題,著眼於空間的「形狀(凸性)」,而是聚焦於優化過程的「結構」。生成器($\pi$)與鑑別器($D$)的競爭被設置為在序集合的範疇中作為隨伴函子(Adjoint Functors),即伽羅瓦連接。最佳反應函子 $F, G$:
$F(\pi) := \text{arg} \max_{D} V(\pi, D)$ (對於 $\pi$ 的最強敵手)
$G(D) := \text{arg} \min_{\pi} V(\pi, D)$ (最能欺騙 $D$ 的夥伴)
此時,以下的隨伴關係 $F \dashv G$ 成立。
$$F(\pi) \ge D \iff \pi \le G(D)$$
利用這一結構,不論具體損失函數的形狀(凸性)如何,我們都能將優化的動態本身作為射的性質來進行討論。
本備忘錄最大的亮點是F.W. Lawvere的不動點定理的擴展。傳統的Lawvere定理存在問題,Lawvere定理提出「如果存在一個編碼 $e: A \to Y^A$ 為全射(能表達所有函數),那麼任何更新規則 $t: Y \to Y$ 都有不動點」。然而,具有有限參數的神經網絡並不能嚴格地表現(全射)所有函數。
在這裡,作者提出了Lawvere於1973年所提出的「距離空間是豐滿範疇」的觀點(距離空間範疇 $Met$)。將神經網絡的普遍近似定理重新解釋為:「在函數空間中的象是 $\epsilon$-稠密 (dense)」,而非「全射」。有鑑於此,論文推導出了以下的近似不動點定理。
如果參數空間 $A$ 到函數空間 $Y^A$ 的射 $e$ 的象是 $\epsilon$-稠密的,則對於任意的利普希茨連續更新規則 $t: Y \to Y$,存在滿足以下條件的近似不動點 $y$。
$$d_Y(y, t(y)) < \epsilon$$
為什麼表現力越高,學習越會收斂?此理論對GAIL和RLHF所提供的啟示是極其強大的。
在GAIL和RLHF的實作中,「讓層數加深與擴大能使學習穩定」的經驗法則,可以從範疇論的角度解釋為「稠密性 $\epsilon$ 減少,進而能保證更高精度的近似不動點」。或許,面對「因為非凸而無法在理論上處理」的時代,已經結束了?
<iframe id="qiita-embed-content6cd0cb56fd97293be516e029fabe3717"></iframe>
<iframe id="qiita-embed-content86447aa466b01ea07d43281d3ca887a8"></iframe>
<iframe id="qiita-embed-content0b36a0de913b7b5f9ccf396e9e1deb56"></iframe>
<iframe id="qiita-embed-content6e5b79d71cf7d3d44e6dbe0b7900eac0"></iframe>
我覺得Cantor的對角線論法與神經網絡的普遍近似定理能透過Lawvere的不動點定理連結起來的瞬間,非常有趣。在非凸的混沌之中潛藏著的,是隨伴與不動點的秩序,也許這正是深度學習的真實面貌。
(真的嗎?)