利用範疇論證明生成式人工智慧收斂點的存在性

引言

敵対性模仿學習的範疇論解釋將會介紹。

近年來，敵對性模仿學習（Generative Adversarial Imitation Learning; GAIL）以及應用於此的RLHF（Reinforcement Learning from Human Feedback），已成為現代AI的根幹技術，如大規模語言模型的微調等。然而，傳統機器學習理論在解釋「這些學習為何會收斂？」這一問題時，卻遇到了名為「凸性」的高牆。本次介紹的備忘錄，正是運用範疇論（Category Theory）這種極具抽象性的數學，為非凸深度學習的世界帶來鮮明的秩序。特別值得一提的是，擴展F.W. Lawvere（洛維爾）的不動點定理至距離空間並與神經網絡的普遍近似定理聯繫起來，這一點在理論及實用解釋上都顯得非常突破。

1. 現有理論的局限性

GAIL/RLHF所面臨的「非凸性」的壁壘

敵對學習（如GAN和GAIL）的目標函數，通常被設定為策略 $\pi$ 與鑑別器 $D$ 的極小極大博弈。
$$\min{\pi} \max{D} V(\pi, D)$$
古典理論使用布勞維爾（Brouwer）的不動點定理或角谷（Kakutani）的不動點定理來證明這場博弈會收斂並存在納什均衡（Nash Equilibrium）。然而，在深度學習的世界中，這些前提條件往往都不成立。為什麼「非凸性」導致現有的不動點定理無法使用呢？

① 布勞維爾的不動點定理的失效

布勞維爾定理的內容是：「從一個緊緻的凸集合 $C$ 至自身的連續函數 $f: C \to C$，必有不動點 $f(x)=x$。」然而，在深度學習的參數空間 $\Theta$ 中，具有良好性能的區域 $C \subset \Theta$ 通常並不是凸的。
$$V(\lambda \theta_1 + (1-\lambda)\theta_2) > \lambda V(\theta_1) + (1-\lambda)V(\theta_2)$$
由於多層神經網絡的非線性性質，兩個優秀解的中間地帶變成「最壞解」的情況屢見不鮮。在集合不是凸的情況下，布勞維爾定理無法適用。

② 角谷的不動點定理與「多峰性」

角谷定理處理的是一點不確定的「對應（set-valued mapping）」。該定理成立的必要條件是，對於某一狀態的最佳反應（Best Response）集合 $G(x)$ 必須始終是非空的凸集合。然而，在RLHF和GAIL中，某個鑑別器所對應的「最佳解」可能會分為兩種完全不同的策略（例如：從右側避開、從左側避開）。在這種情況下，該平均策略（直接插入中間）並不是最佳的，因此最佳反應的集合不會是凸的，這樣一來均衡的存在性就得不到保證。

2. 以「隨伴（伽羅瓦接續）」重新看待優化問題

備忘錄中為了避免非凸性問題，著眼於空間的「形狀（凸性）」，而是聚焦於優化過程的「結構」。生成器（$\pi$）與鑑別器（$D$）的競爭被設置為在序集合的範疇中作為隨伴函子（Adjoint Functors），即伽羅瓦連接。最佳反應函子 $F, G$：

$F(\pi) := \text{arg} \max_{D} V(\pi, D)$ （對於 $\pi$ 的最強敵手）

$G(D) := \text{arg} \min_{\pi} V(\pi, D)$ （最能欺騙 $D$ 的夥伴）

此時，以下的隨伴關係 $F \dashv G$ 成立。
$$F(\pi) \ge D \iff \pi \le G(D)$$
利用這一結構，不論具體損失函數的形狀（凸性）如何，我們都能將優化的動態本身作為射的性質來進行討論。

3. Lawvere的不動點定理與「距離空間的範疇 Met」

本備忘錄最大的亮點是F.W. Lawvere的不動點定理的擴展。傳統的Lawvere定理存在問題，Lawvere定理提出「如果存在一個編碼 $e: A \to Y^A$ 為全射（能表達所有函數），那麼任何更新規則 $t: Y \to Y$ 都有不動點」。然而，具有有限參數的神經網絡並不能嚴格地表現（全射）所有函數。