🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付

引言

此次,我們將介紹一篇名為「新相依係數」的影響力論文。
從這篇論文所定義的內容來看,或許不太容易理解,因此我們將使用圖示來進行簡明的說明。
介紹的論文如下:

Chatterjee, Sourav. "A new coefficient of correlation." Journal of the American Statistical Association 116.536 (2021): 2009-2022.

這是斯坦福大學的一位重鎮單獨撰寫的論文,刊登於統計學四大期刊之一的JASA。截止到本文發表時,已經有近500次的引用。

先前的相依係數

首先,我們簡單回顧一下古典的相依係數。
假設有兩個獨立同分布的隨機變數列 $\mathbf{X}=(X_1,\ldots,X_n),~\mathbf{Y}=(Y_1,\ldots,Y_n)\in\mathbb{R}^n$,我們希望檢查這兩者之間是否存在關聯

1. Pearson的相依係數

首先,最常被稱作相依係數的便是Pearson的(樣本)相依係數,它必定出現在基本統計學的教科書中。
定義樣本均值為 $\bar{X}=n^{-1}\sum_{i=1}^nX_i$,則其公式如下:

$$r(\mathbf{X},\mathbf{Y})=\frac{\sum_{i=1}^n(X_i-\bar{X})(Yi-\bar{Y})}{\sqrt{\sum{i=1}^n(Xi-\bar{X})^2\sum{i=1}^n(Y_i-\bar{Y})^2}}.$$

這是將兩個中心化的隨機向量 $\mathbf{X}, \mathbf{Y}$ 的內積除以其範數進行標準化,可以解釋為兩變數間的相似度。

這裡常提到的缺點是,Pearson相依係數只「捕捉線性關係」。也就是說,像 $Y=aX+b$ 的關係能夠被檢測,而 $Y=X^2$ 或 $X^2+Y^2=1$ 的關係則可能無法被察覺。
為了更強大地檢測非線性關係,有必要使用更強力的相依係數。

※此處為了簡單起見稱之為線性,實際上允許非零截距的正確名稱應為「仿射」。

2. Spearman的秩相依係數

接下來,我們介紹同樣知名的Spearman秩相依係數。
透過考慮「秩」,僅考察「大小的順序」,從而消除了「相對大小」的資訊。這使得非線性的問題能夠轉換為線性的問題(即降為Pearson相依可以處理的問題)。

首先,將 $X_1,\ldots,X_n$ 的秩定義為 $R_n(X_i)$(由小到大的順序),並將這些秩整理成一個向量 $R_n(\mathbf{X})$。此時,Spearman的秩相依係數可用以下公式表示:

$$\rho(\mathbf{X},\mathbf{Y})=r(R_n(\mathbf{X}),Rn(\mathbf{Y}))=1-\frac{6\sum{i=1}^n(R_n(X_i)-R_n(Y_i))^2}{n^3-n}.$$

這等同於秩轉換後的Pearson相依。

僅看這一點或許難以理解,讓我們用圖示來幫助想像。
假設我們獲得了以下這樣的變數對。
這顯然存在關聯。

image.png

將其轉換為秩,即是將數據點重新排列為 $\lbrace1,\ldots,n\rbrace\times\lbrace1,\ldots,n \rbrace$ 的格狀,如下圖所示。

image.png

這樣就完全排列成直線,因此這個Pearson相依係數為1(也就是說原始數據的Spearman秩相依也是1)。
如此一來,非線性關係便能夠轉換為線性。

然而,Spearman秩相依也存在問題。
那就是它只能捕捉到「任意的單調」關係。
如想像 $Y=X^2$,即使進行秩轉換,也需要「單調增加或減少」才能排列為線性。

其他

此外,還有基於核方法捕捉非線性、考慮copula等各種關係度量的提案,但我將把這些列舉留給原論文以供參考。

新相依係數:Chatterjee秩相依

那麼,讓我們終於進入論文的介紹。
所提議的「新相依係數」計算簡便,其值接近於零意味著「$X$和$Y$相互獨立」,接近於1則表示存在可測函數 $f$使得「$Y=f(X)$」。這是一個相當驚人的結果。

首先,讓我們來看看這個定義。
為了方便解釋,假設不存在平局(完全相同的值)。

  1. 首先將數據對進行排序,使得 $X{(1)}\le\cdots\le X{(n)}$。
  2. 在此情況下,$Y$不單獨排序,而是隨著 $X$的排序將原始數據點全部寫為 $(X{(1)},Y{(1)}),\ldots,(X{(n)},Y{(n)})$。
  3. 定義 $ri$ 為 $Y{(i)}$ 的秩,以下是定義:
    $$\xin(\mathbf{X},\mathbf{Y}):=1-\frac{3\sum{i=1}^{n-1}|r{i+1}-r{i}|}{n^2-1}.$$

在原論文中幾乎沒有對這個定義的解釋。
究竟有多少人能夠僅僅看到這一點而恍然大悟呢…。

接下來,我將使用類似的圖示來直觀說明這一定義。
首先,假設我們觀察到以下10個隨機變數的對。

image.png

這時需要對$X$進行秩轉換。如果將數據點重新排列為 $\lbrace1,\ldots,n\rbrace^2$ 的格狀,會得到以下結果:

image.png

此時的Chatterjee秩相依可以理解為,從1減去以下藍線長度的總和。

image.png

在這個例子中,藍線長度的總和為 $3+3+1+3+2+1+4+3+1=21$,因此Chatterjee秩相依為 $1-\frac{3\times21}{10^2-1}\approx0.364$,看起來顯示出一定的相關性。

最終,「如果$X$和$Y$之間存在關聯,則相鄰點之間應足夠接近」的直覺得以反映,因此這似乎是一個合理的指標。

具體而言,當存在 $Y=f(X)$ 的關係時,對可測函數 $f:\mathbb{R}\to\mathbb{R}$有:

  • 連續情況:每條藍線的長度為常數級別。

    • 即使將(n-1)條藍線累加,隨著 $1/n^2$ 的縮放消失。
  • 不連續情況:不連續部分的藍線長度為 $O(n)$。

    • 若存在有限次的跳躍,則也是以 $1/n^2$ 的縮放消失。

因此,漸近的穩定性似乎是足夠的。

數值驗證

接下來,我們實際增加更多數據點進行實驗。我們將從存在三次函數關係的 $Y=X^3$ 生成數據。下圖中,上面是原始坐標系,下面是秩轉換後的坐標系,藍線保持不變,顯示Chatterjee秩相依 $\xi$ 的值。
果然,隨著樣本大小的增加,能正確判斷關聯性。

image.png

那麼當兩變數間完全沒有關聯時又會如何呢?
下面的情形是當 $X\sim\mathrm{Unif}[-1,1]$ 和 $Y\sim\mathrm{Pois}(5)$ 獨立生成時的結果。
結果顯示它能夠正確識別出明顯無關聯的情況。

image.png

理論性質

Chatterjee秩相依似乎具備以下期望的特性:

  • $\xi_n(\mathbf{X},\mathbf{Y})\overset{\rm a.s.}{\to}\xi(X_1,Y_1):=\frac{\displaystyle\int\mathrm{Var}(\mathbb{E}[1\lbrace Y_1\ge t\rbrace|X_1])\mathrm{d}\mu(t)}{\displaystyle\int\mathrm{Var}(1\lbrace Y_1\ge t\rbrace)\mathrm{d}\mu(t)}\in[0,1]$ ($\mu$: 法則 $Y_1$)。
  • $\xi=0$ 充足且必要條件為 $X$和$Y$獨立,$\xi=1$ 充足且必要條件為存在可測函數 $f$ 使得 $Y=f(X)$。
  • 當 $X$和$Y$獨立且$Y$為連續值時 $\sqrt{n}\xi_n(\mathbf{X},\mathbf{Y})\overset{\rm d}{\to}\mathcal{N}(0,2/5)$可構建獨立性檢驗。
  • 僅依賴於秩,對於異常值具有穩健性。同時對 $X$ 和 $Y$ 的單調轉換不變,且計算時間為 $O(n\log n)$,非常迅速。

看起來都是相當不錯的特性。

儘管在信號平滑情況下,與其他獨立性檢驗相比,檢測能力較低,且後來發現存在速率效率低,但據說已經有相應的解決方案被提出。

最後

這篇名為「新相依係數」的論文,毫無虛假且實在是很精彩的一篇作品,正如Sourav Chatterjee教授所命名的那樣。

希望這篇文章能幫助大家更進一步理解。


原文出處:https://qiita.com/Islay_tr/items/dd427ba86ba11bd25626


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝16   💬4   ❤️4
365
🥈
我愛JS
📝1   💬5   ❤️2
54
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付