此次,我們將介紹一篇名為「新相依係數」的影響力論文。
從這篇論文所定義的內容來看,或許不太容易理解,因此我們將使用圖示來進行簡明的說明。
介紹的論文如下:
Chatterjee, Sourav. "A new coefficient of correlation." Journal of the American Statistical Association 116.536 (2021): 2009-2022.
這是斯坦福大學的一位重鎮單獨撰寫的論文,刊登於統計學四大期刊之一的JASA。截止到本文發表時,已經有近500次的引用。
首先,我們簡單回顧一下古典的相依係數。
假設有兩個獨立同分布的隨機變數列 $\mathbf{X}=(X_1,\ldots,X_n),~\mathbf{Y}=(Y_1,\ldots,Y_n)\in\mathbb{R}^n$,我們希望檢查這兩者之間是否存在關聯。
首先,最常被稱作相依係數的便是Pearson的(樣本)相依係數,它必定出現在基本統計學的教科書中。
定義樣本均值為 $\bar{X}=n^{-1}\sum_{i=1}^nX_i$,則其公式如下:
$$r(\mathbf{X},\mathbf{Y})=\frac{\sum_{i=1}^n(X_i-\bar{X})(Yi-\bar{Y})}{\sqrt{\sum{i=1}^n(Xi-\bar{X})^2\sum{i=1}^n(Y_i-\bar{Y})^2}}.$$
這是將兩個中心化的隨機向量 $\mathbf{X}, \mathbf{Y}$ 的內積除以其範數進行標準化,可以解釋為兩變數間的相似度。
這裡常提到的缺點是,Pearson相依係數只「捕捉線性關係」。也就是說,像 $Y=aX+b$ 的關係能夠被檢測,而 $Y=X^2$ 或 $X^2+Y^2=1$ 的關係則可能無法被察覺。
為了更強大地檢測非線性關係,有必要使用更強力的相依係數。
※此處為了簡單起見稱之為線性,實際上允許非零截距的正確名稱應為「仿射」。
接下來,我們介紹同樣知名的Spearman秩相依係數。
透過考慮「秩」,僅考察「大小的順序」,從而消除了「相對大小」的資訊。這使得非線性的問題能夠轉換為線性的問題(即降為Pearson相依可以處理的問題)。
首先,將 $X_1,\ldots,X_n$ 的秩定義為 $R_n(X_i)$(由小到大的順序),並將這些秩整理成一個向量 $R_n(\mathbf{X})$。此時,Spearman的秩相依係數可用以下公式表示:
$$\rho(\mathbf{X},\mathbf{Y})=r(R_n(\mathbf{X}),Rn(\mathbf{Y}))=1-\frac{6\sum{i=1}^n(R_n(X_i)-R_n(Y_i))^2}{n^3-n}.$$
這等同於秩轉換後的Pearson相依。
僅看這一點或許難以理解,讓我們用圖示來幫助想像。
假設我們獲得了以下這樣的變數對。
這顯然存在關聯。

將其轉換為秩,即是將數據點重新排列為 $\lbrace1,\ldots,n\rbrace\times\lbrace1,\ldots,n \rbrace$ 的格狀,如下圖所示。

這樣就完全排列成直線,因此這個Pearson相依係數為1(也就是說原始數據的Spearman秩相依也是1)。
如此一來,非線性關係便能夠轉換為線性。
然而,Spearman秩相依也存在問題。
那就是它只能捕捉到「任意的單調」關係。
如想像 $Y=X^2$,即使進行秩轉換,也需要「單調增加或減少」才能排列為線性。
此外,還有基於核方法捕捉非線性、考慮copula等各種關係度量的提案,但我將把這些列舉留給原論文以供參考。
那麼,讓我們終於進入論文的介紹。
所提議的「新相依係數」計算簡便,其值接近於零意味著「$X$和$Y$相互獨立」,接近於1則表示存在可測函數 $f$使得「$Y=f(X)$」。這是一個相當驚人的結果。
首先,讓我們來看看這個定義。
為了方便解釋,假設不存在平局(完全相同的值)。
在原論文中幾乎沒有對這個定義的解釋。
究竟有多少人能夠僅僅看到這一點而恍然大悟呢…。
接下來,我將使用類似的圖示來直觀說明這一定義。
首先,假設我們觀察到以下10個隨機變數的對。

這時需要對$X$進行秩轉換。如果將數據點重新排列為 $\lbrace1,\ldots,n\rbrace^2$ 的格狀,會得到以下結果:

此時的Chatterjee秩相依可以理解為,從1減去以下藍線長度的總和。

在這個例子中,藍線長度的總和為 $3+3+1+3+2+1+4+3+1=21$,因此Chatterjee秩相依為 $1-\frac{3\times21}{10^2-1}\approx0.364$,看起來顯示出一定的相關性。
最終,「如果$X$和$Y$之間存在關聯,則相鄰點之間應足夠接近」的直覺得以反映,因此這似乎是一個合理的指標。
具體而言,當存在 $Y=f(X)$ 的關係時,對可測函數 $f:\mathbb{R}\to\mathbb{R}$有:
連續情況:每條藍線的長度為常數級別。
不連續情況:不連續部分的藍線長度為 $O(n)$。
因此,漸近的穩定性似乎是足夠的。
接下來,我們實際增加更多數據點進行實驗。我們將從存在三次函數關係的 $Y=X^3$ 生成數據。下圖中,上面是原始坐標系,下面是秩轉換後的坐標系,藍線保持不變,顯示Chatterjee秩相依 $\xi$ 的值。
果然,隨著樣本大小的增加,能正確判斷關聯性。

那麼當兩變數間完全沒有關聯時又會如何呢?
下面的情形是當 $X\sim\mathrm{Unif}[-1,1]$ 和 $Y\sim\mathrm{Pois}(5)$ 獨立生成時的結果。
結果顯示它能夠正確識別出明顯無關聯的情況。

Chatterjee秩相依似乎具備以下期望的特性:
看起來都是相當不錯的特性。
儘管在信號平滑情況下,與其他獨立性檢驗相比,檢測能力較低,且後來發現存在速率效率低,但據說已經有相應的解決方案被提出。
這篇名為「新相依係數」的論文,毫無虛假且實在是很精彩的一篇作品,正如Sourav Chatterjee教授所命名的那樣。
希望這篇文章能幫助大家更進一步理解。