🔧 阿川の電商水電行

Shopify 顧問、維護與客製化

💡

小任務 / 單次支援方案

單次處理 Shopify 修正／微調

⭐️

維護方案

每月 Shopify 技術支援 + 小修改 + 諮詢

🚀

專案建置

Shopify 功能導入、培訓 + 分階段交付

👉 瞭解詳情 / 免費諮詢

小編精選 - 技術文章翻譯 · 12月07日

關於“新的相關係數”

引言

此次，我們將介紹一篇名為「新相依係數」的影響力論文。
從這篇論文所定義的內容來看，或許不太容易理解，因此我們將使用圖示來進行簡明的說明。
介紹的論文如下：

Chatterjee, Sourav. "A new coefficient of correlation." Journal of the American Statistical Association 116.536 (2021): 2009-2022.

這是斯坦福大學的一位重鎮單獨撰寫的論文，刊登於統計學四大期刊之一的JASA。截止到本文發表時，已經有近500次的引用。

先前的相依係數

首先，我們簡單回顧一下古典的相依係數。
假設有兩個獨立同分布的隨機變數列 $\mathbf{X}=(X_1,\ldots,X_n),~\mathbf{Y}=(Y_1,\ldots,Y_n)\in\mathbb{R}^n$，我們希望檢查這兩者之間是否存在關聯。

1. Pearson的相依係數

首先，最常被稱作相依係數的便是Pearson的（樣本）相依係數，它必定出現在基本統計學的教科書中。
定義樣本均值為 $\bar{X}=n^{-1}\sum_{i=1}^nX_i$，則其公式如下：

$$r(\mathbf{X},\mathbf{Y})=\frac{\sum_{i=1}^n(X_i-\bar{X})(Yi-\bar{Y})}{\sqrt{\sum{i=1}^n(Xi-\bar{X})^2\sum{i=1}^n(Y_i-\bar{Y})^2}}.$$

這是將兩個中心化的隨機向量 $\mathbf{X}, \mathbf{Y}$ 的內積除以其範數進行標準化，可以解釋為兩變數間的相似度。

這裡常提到的缺點是，Pearson相依係數只「捕捉線性關係」。也就是說，像 $Y=aX+b$ 的關係能夠被檢測，而 $Y=X^2$ 或 $X^2+Y^2=1$ 的關係則可能無法被察覺。
為了更強大地檢測非線性關係，有必要使用更強力的相依係數。

※此處為了簡單起見稱之為線性，實際上允許非零截距的正確名稱應為「仿射」。

2. Spearman的秩相依係數

接下來，我們介紹同樣知名的Spearman秩相依係數。
透過考慮「秩」，僅考察「大小的順序」，從而消除了「相對大小」的資訊。這使得非線性的問題能夠轉換為線性的問題（即降為Pearson相依可以處理的問題）。

首先，將 $X_1,\ldots,X_n$ 的秩定義為 $R_n(X_i)$（由小到大的順序），並將這些秩整理成一個向量 $R_n(\mathbf{X})$。此時，Spearman的秩相依係數可用以下公式表示：

$$\rho(\mathbf{X},\mathbf{Y})=r(R_n(\mathbf{X}),Rn(\mathbf{Y}))=1-\frac{6\sum{i=1}^n(R_n(X_i)-R_n(Y_i))^2}{n^3-n}.$$

這等同於秩轉換後的Pearson相依。

僅看這一點或許難以理解，讓我們用圖示來幫助想像。
假設我們獲得了以下這樣的變數對。
這顯然存在關聯。

將其轉換為秩，即是將數據點重新排列為 $\lbrace1,\ldots,n\rbrace\times\lbrace1,\ldots,n \rbrace$ 的格狀，如下圖所示。

這樣就完全排列成直線，因此這個Pearson相依係數為1（也就是說原始數據的Spearman秩相依也是1）。
如此一來，非線性關係便能夠轉換為線性。

然而，Spearman秩相依也存在問題。
那就是它只能捕捉到「任意的單調」關係。
如想像 $Y=X^2$，即使進行秩轉換，也需要「單調增加或減少」才能排列為線性。

其他

此外，還有基於核方法捕捉非線性、考慮copula等各種關係度量的提案，但我將把這些列舉留給原論文以供參考。

新相依係數：Chatterjee秩相依

那麼，讓我們終於進入論文的介紹。
所提議的「新相依係數」計算簡便，其值接近於零意味著「$X$和$Y$相互獨立」，接近於1則表示存在可測函數 $f$使得「$Y=f(X)$」。這是一個相當驚人的結果。

首先，讓我們來看看這個定義。
為了方便解釋，假設不存在平局（完全相同的值）。

首先將數據對進行排序，使得 $X{(1)}\le\cdots\le X{(n)}$。
在此情況下，$Y$不單獨排序，而是隨著 $X$的排序將原始數據點全部寫為 $(X{(1)},Y{(1)}),\ldots,(X{(n)},Y{(n)})$。
定義 $ri$ 為 $Y{(i)}$ 的秩，以下是定義：
$$\xin(\mathbf{X},\mathbf{Y}):=1-\frac{3\sum{i=1}^{n-1}|r{i+1}-r{i}|}{n^2-1}.$$

在原論文中幾乎沒有對這個定義的解釋。
究竟有多少人能夠僅僅看到這一點而恍然大悟呢…。

接下來，我將使用類似的圖示來直觀說明這一定義。
首先，假設我們觀察到以下10個隨機變數的對。

這時需要對$X$進行秩轉換。如果將數據點重新排列為 $\lbrace1,\ldots,n\rbrace^2$ 的格狀，會得到以下結果：

此時的Chatterjee秩相依可以理解為，從1減去以下藍線長度的總和。

在這個例子中，藍線長度的總和為 $3+3+1+3+2+1+4+3+1=21$，因此Chatterjee秩相依為 $1-\frac{3\times21}{10^2-1}\approx0.364$，看起來顯示出一定的相關性。

最終，「如果$X$和$Y$之間存在關聯，則相鄰點之間應足夠接近」的直覺得以反映，因此這似乎是一個合理的指標。

具體而言，當存在 $Y=f(X)$ 的關係時，對可測函數 $f:\mathbb{R}\to\mathbb{R}$有：

連續情況：每條藍線的長度為常數級別。
- 即使將(n-1)條藍線累加，隨著 $1/n^2$ 的縮放消失。
不連續情況：不連續部分的藍線長度為 $O(n)$。
- 若存在有限次的跳躍，則也是以 $1/n^2$ 的縮放消失。

因此，漸近的穩定性似乎是足夠的。

數值驗證

接下來，我們實際增加更多數據點進行實驗。我們將從存在三次函數關係的 $Y=X^3$ 生成數據。下圖中，上面是原始坐標系，下面是秩轉換後的坐標系，藍線保持不變，顯示Chatterjee秩相依 $\xi$ 的值。
果然，隨著樣本大小的增加，能正確判斷關聯性。

那麼當兩變數間完全沒有關聯時又會如何呢？
下面的情形是當 $X\sim\mathrm{Unif}[-1,1]$ 和 $Y\sim\mathrm{Pois}(5)$ 獨立生成時的結果。
結果顯示它能夠正確識別出明顯無關聯的情況。

理論性質

Chatterjee秩相依似乎具備以下期望的特性：

$\xi_n(\mathbf{X},\mathbf{Y})\overset{\rm a.s.}{\to}\xi(X_1,Y_1):=\frac{\displaystyle\int\mathrm{Var}(\mathbb{E}[1\lbrace Y_1\ge t\rbrace|X_1])\mathrm{d}\mu(t)}{\displaystyle\int\mathrm{Var}(1\lbrace Y_1\ge t\rbrace)\mathrm{d}\mu(t)}\in[0,1]$ （$\mu$: 法則 $Y_1$）。
$\xi=0$ 充足且必要條件為 $X$和$Y$獨立，$\xi=1$ 充足且必要條件為存在可測函數 $f$ 使得 $Y=f(X)$。
當 $X$和$Y$獨立且$Y$為連續值時 $\sqrt{n}\xi_n(\mathbf{X},\mathbf{Y})\overset{\rm d}{\to}\mathcal{N}(0,2/5)$可構建獨立性檢驗。
僅依賴於秩，對於異常值具有穩健性。同時對 $X$ 和 $Y$ 的單調轉換不變，且計算時間為 $O(n\log n)$，非常迅速。

看起來都是相當不錯的特性。

儘管在信號平滑情況下，與其他獨立性檢驗相比，檢測能力較低，且後來發現存在速率效率低，但據說已經有相應的解決方案被提出。