小編精選 - 技術文章翻譯 · 05月02日

為什麼深度學習在表格資料上無法勝過樹模型

你以為深層學習會取代一切嗎？

影像、自然語言、語音也是。

深層學習在各個領域都交出了壓倒性的成果。

也因此，在商業預測模型中，深層學習最終也會成為主角。

這樣想是很自然的事。

但現實其實有點不同。

像顧客資料、銷售資料這類「表格式資料」，至今仍有很多情況是 XGBoost、LightGBM 這類樹模型表現更好、精度更高。

為什麼會出現這種逆轉現象呢？

過去 10 年，引領 AI 進化的是「深層學習（Deep Learning）」。

神經網路為影像辨識、自然語言處理、語音辨識等領域帶來革命，而 Transformer 和 CNN，從 ChatGPT 到自動駕駛，已成為各種技術的核心。

看到這些成功案例後，很容易覺得對所有資料來說，深層學習都是最佳方法。

但在表格式資料的世界裡，這個前提並不成立。

原因在於深層學習「擅長什麼」與「不擅長什麼」，以及資料本身的「結構」。

這不只是演算法優劣的問題，而是「如何理解資料」這個本質性的問題。

大部分的商業資料都是表格式資料

對大多數企業來說，通常不需要自己拿數十億張影像或網路規模的文字資料來訓練 AI 模型。

相對地，商業上使用的多半是下面這類較單純的資料。

每一欄各自代表不同的概念。

屬性資訊（年齡、收入）
行為資訊（造訪次數、購買）
地理資訊（國家）

而且，和影像或語言不同，這些變數（欄位）之間並不存在獨特的連結結構。

例如，影像具有以下這種空間結構。

更具體一點來說，大概像這樣。

而語言則具有以下這種連續性的結構。

更具體一點來說，也是大概像這樣。

深層學習在這種具有階層性結構的資料（影像、語言）上，才能真正發揮威力。

例如，今天的深層學習與 AI 中最重要的演算法之一——Transformer，在根據文字資料建構模型時，會考慮文字順序、單字與句子之間的關係，進而預測下一個詞。

但表格式資料不同。它只是用來描述某個現象的一組變數而已，不像影像或文字那樣擁有結構或順序。

表格式資料

某個變數中的各個值，通常彼此是獨立的。

而這種差異，正是我們在尋找為什麼傳統機器學習模型比深層學習模型更常表現出色時，最關鍵的答案。

為什麼基於樹的機器學習模型表現良好

XGBoost、LightGBM、隨機森林等機器學習模型，至今仍是許多使用商業資料建立預測模型的資料科學家與分析師最常使用的演算法，它們共享相同的架構。

一般稱它為樹（tree），正式名稱則是「決策樹（Decision Trees）」。

決策樹以一種對這類資料非常自然的方式來解決問題。

它不是學習抽象表示，而是學習「規則」。

例如：

或者：

這種條件式規則常見於真實世界的資料集，而決策樹很擅長找出它們。

XGBoost 的興起

到了 2010 年代中期，隨著 XGBoost 這個樹（決策樹）家族中的演算法之一登場，它一下子就大受歡迎。

XGBoost 以高度最佳化的方式實作梯度提升，迅速成為許多處理表格式資料的機器學習資料科學家的預設選擇。

它會逐步建立樹，而每一棵樹都會修正前一個模型的錯誤。

不過，隨著資料量變大，模型訓練時間過長也成為一個問題。

這時候，LightGBM 就登場了。

LightGBM 的登場

2017 年，微軟的研究人員發表了一個名為 LightGBM 的新型提升式框架。

它的目標是讓 boosting 變得「更輕量（Light）」。

LightGBM 中的「Light」指的是計算量與記憶體使用量更輕。

為了達成這個目標，採用了幾項聰明的實作方式，例如以「葉節點優先（leaf-wise）」方式增長樹。這種方法會在損失下降最多的地方擴展樹，讓計算集中在模型中最有資訊量的部分。

層級式（XGBoost）

葉節點優先（LightGBM）

此外，還加入了以下方法，在不降低預測準確度的前提下，大幅縮短模型建置時間。

將數值轉換成直方圖，減少切分評估次數
採用優先處理梯度較大的資料列的 GOSS
採用能壓縮稀疏變數值的 EFB（Exclusive Feature Bundling，獨立特徵綁定）

對於需要調整大量變數（特徵）與超參數來做機器學習實驗的人來說，這種速度提升帶來了非常大的影響。

關於 LightGBM，我在另一篇介紹文章中有更詳細的說明，有興趣的話歡迎參考。

<a href="">LightGBM 介紹：與隨機森林和 XGBoost 有何不同</a>

為什麼深層學習常常辛苦作戰？

不過，想要針對商業中常用的表格式資料，使用深層學習演算法來提升預測模型準確度的嘗試，並沒有因此結束。事實上，過去也有很多研究者嘗試將神經網路套用到表格式資料集上。

但在非常多情況下，XGBoost、LightGBM 這類基於樹（決策樹）的模型，依然表現得更好。

原因其實意外地簡單。

深層學習擅長的是資料中包含豐富的內部結構的情況。例如影像中的空間模式、語言中的文法模式等等。

但表格式資料通常沒有這些模式。

相反地，表格式資料往往包含以下內容。

多種變數的混合
經過特徵工程處理的特徵（根據原始變數人工產生的額外變數）
稀疏的類別編碼（One-hot 編碼）
非線性的特徵互動

基於樹（決策樹）的模型，更適合找出這類模式。

在商業現場中

在許多真實世界的機器學習專案裡，工作流程通常會是這樣：

建立基準模型。
嘗試基於樹（決策樹）的模型。
透過特徵工程與參數調校改善模型。

最後，表現最好的模型，往往都是基於 XGBoost 或 LightGBM 這類 boosting 演算法。

這些演算法已經成為建立表格式資料預測模型、並實際進行預測時相當可靠的工具。

親自試試這些模型

我創立 Exploratory 的原因之一，就是希望讓資料科學中的各種工具更容易使用，而利用機器學習模型建立預測模型也是其中之一。

在 Exploratory 中，你可以訓練以下這些基於樹（決策樹）的模型。

決策樹
隨機森林
XGBoost
LightGBM

而且可以直接透過互動式介面執行。

關於 LightGBM 的詳細使用方式，請參考這篇教學筆記。

如果你想為顧客行為、購買歷史、存取紀錄、人事、財務等表格式資料建立高準確度的預測模型，我很推薦你試試這些模型！

👉 下載 Exploratory

https://exploratory.io/download

如果你還沒有帳號，請從這裡註冊並開始 30 天免費試用。

https://exploratory.io/

即使試用期已經結束，如果你還想試試新功能，也可以啟動最新版並使用「延長試用（Extend Trial）」選項。

最後

說到底，重點不在於「哪個演算法最強」。

而是根據資料類型，選擇正確的工具。

深層學習在影像與自然語言這類具有結構的資料上，確實能發揮壓倒性的能力。

另一方面，在商業上常見的表格式資料中，XGBoost 與 LightGBM 這類樹模型，依然是非常強而有力的選擇。

這不只是演算法優劣的問題，而是「如何看待資料」的觀點差異。

不管 AI 再怎麼進化，理解資料的性質，並選擇適合的方法，這個本質都不會改變。

反而，正因為 AI 已經變得更強大，能不能做出這個判斷，才更會左右結果。

如果你過去一直覺得「先用深層學習再說」，不妨停下來，重新檢視自己手上的資料性質。

這一步，不只可能提升模型準確度，也可能成為提升整體分析品質的起點。

感謝你讀到最後。

如果你有任何問題或回饋，歡迎隨時聯絡 [email protected]。

資料科學成長營訓練

我們將在今年 6 月於東京舉辦資料科學成長營！

這是一門為了培養 AI 時代所需的 4 種資料科學能力而設計的訓練課程：

統計素養（提出問題的能力）
科學思維（驗證的能力）
分析方法的理解與結果解讀（連結到決策的能力）
資料處理技能（建立分析基礎的能力）

課程將從零開始系統性學習，幫助你將這些能力轉化為能在商業現場實際運用的實戰技能。

有興趣的話，請務必從這個頁面確認詳細資訊！

原文出處：https://qiita.com/KanNishida/items/4b3a0c02e58c3caa4e4b

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

0個讚 0留言 633瀏覽

共有 0 則留言

登入之後發表留言

文字內容提供幾種功能：
1) --- 會變成分隔線（上一行必須是空白）
2) # 會變成一級標題
3) ## 會變成二級標題
4) ### 會變成三級標題
5) **粗體文字**會顯示粗體文字
6) ```當第一行與最後一行會顯示程式碼
7) 請搜尋 Markdown 語法，了解各種格式

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

🏆 本月排行榜

🥇

站長阿川

📝8 💬2 ❤️5

244

🥈

我愛JS

📝2 💬6 ❤️3

111

評分標準：發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10

本數據每小時更新一次