站長阿川

站長阿川私房教材:
學 JavaScript 前端,帶作品集去面試!

站長精心設計,帶你實作 63 個小專案,得到作品集!

立即開始免費試讀!

因為反應熱烈,所以我們製作了2025年版。由於今年也不少出色的書籍,我還有一些書尚未追蹤到。稍後我會逐步添加編輯。


本文章的目的

  • 介紹對IT領域的技術人員在數據分析相關工作上有幫助的書籍(我在學習的初期若能有這樣的推薦會非常高興)的文章
    • 本文作者青木曾在生物資訊學(以基因組數據的資料庫化為中心,使用Perl和MySQL)上進行時序分析,現在則使用R和Python進行一般數據分析的工作
    • 因此並沒有專為研究者所寫的書籍。此外,雖然我主要是通過R來學習數據分析的基礎,但現在根據潮流,除了理論的部分,幾乎都只列出Python書籍
    • 這種列書單的人通常都沒有好好讀過書,這種話我過去聽過,但未讀的書籍我已經刪除了
    • 最近出色的書籍不斷涌現,雖然在閱讀過程中也列出了某些書籍(例如讀過初版但尚未讀到改訂版的書籍),在推薦中會明示

整體概述


今年的特色(2024年版的更新)

生成式AI與自然語言處理已分為別的文章。


章節與更新狀況

  • 2024年版的章節排列也進行了調整
2025年版機器學習・數據分析的100本書+5本 2024年版機器學習・數據分析的必須10本書+熱門90本+下一步5本=105本 更新狀況
1. 必須的10本 1. 必須的10本 無變更
2. 商業力
2.1. 商業・主題定義的5本 2.1. 商業・主題定義的4本 增加1本
3. 數據科學力
3.1. 前處理・特徵工程的5本 2.2. 前處理・特徵工程的5本 無變更
3.2. 分析演算法
3.2.1. 分析演算法 統計學的3本 2.3.1. 分析演算法 統計學的3本 替換1本
3.2.2. 分析演算法 機器學習演算法-1的5本 2.3.2. 分析演算法 機器學習演算法-1的5本 無變更
3.2.3. 分析演算法 機器學習演算法-2(深度學習)的4本 2.3.3. 分析演算法 機器學習演算法-2(深度學習)的4本 無變更
3.2.4. 分析演算法 因果推論・因果探索的6本 2.3.4. 分析演算法 因果推論・因果探索的6本 無變更
3.2.5. 分析演算法 異常檢測的2本 2.3.5. 分析演算法 異常檢測的2本 無變更
3.2.6. 分析演算法 網路分析的4本 2.3.6. 分析演算法 網路分析的2本 增加2本
3.2.7. 分析演算法 稀疏建模的2本 2.3.7. 分析演算法 稀疏建模的2本 無變更
3.2.8. 分析演算法 強化學習的3本 2.3.8. 分析演算法 強化學習的2本 增加1本
3.2.9. 分析演算法 貝葉斯統計・貝葉斯機器學習的5本 2.3.9. 分析演算法 貝葉斯統計・貝葉斯機器學習的4本 增加1本
(刪除,別篇文章)2025年版 生成AI・大型語言模型的學習書籍30冊(必須5冊+經典15冊+優秀10冊) 2.5.2. 生成AI的6本 カテゴリー刪除,另立文章
3.2.10. 分析演算法 評估指標・XAI的4本 2.3.10. 分析演算法 評估指標・XAI的4本 無變更
3.3. 數據可視化的7本 2.4. 數據可視化的6本 增加1本
3.4. 數據分類
(刪除,別篇文章)2025年版 生成AI・大型語言模型的學習書籍30冊(必須5冊+經典15冊+優秀10冊) 2.5.1. 自然語言處理的7本 类别刪除,另立文章
3.4.1. 時序分析的8本 2.5.3. 時序分析的7本 增加1本
3.4.2. 影像處理的1本 2.5.4. 影像處理的1本 無變更
3.4.3. 地理空間的1本 2.6. 地理空間的2本 2.5.5. 地理空間的1本
3.5. 機器學習周邊的手法5本 2.6. 機器學習周邊的手法4本 增加1本
3.6. 數學基礎的4本 2.7. 數學基礎的4本 無變更
3.7. 程式設計的3本 2.8. 程式設計的3本 無變更
4. 數據工程力
4.1. 數據管理的3本 3. 數據管理的3本 無變更
4.2. 建設・運營的2本 4.1. 建設・運營的2本 無變更
5. 資格・KAGGLE
5.1. 資格的3本 4.2. 資格的2本 增加1本
5.2. KAGGLE的4本 4.3. KAGGLE的3本 增加1本
6. 下一步的5本 5. 下一步的5本 替換2本
總計104本 增加20本,替換3本,刪除13本(自然語言處理7本,生成AI6本合併為別的文章)

標記說明

  • 書籍介紹中的標記說明
    • new
    • 2024年版中沒有的新書籍已被添加。
  • 圖表中的標記說明

長長的開場結束了,那麼現在開始吧!

1. 必須的10本

  • 本部分未對2024年版做變更
  • 依照數據科學家協會所提及的「商業」「數據科學」「數據工程」三個要素進行排列
  • 正如前面所述,閱讀這10本書可以大大減少「什麼都不懂」的情況
  • 而且,這樣也方便接軌後續各類別的書籍
類別 書名 內容
最初的1本 Python機器學習程式設計[PyTorch&scikit-learn編] (impress top gear) - 我讀的是這系列的初版,實話是這版我並未閱讀,但評價仍佳,因此列出來了。已出至第三版,2022年新推出的PyTorch & scikit-learn版本,但在實質上算是第4版,也就是最新版。<br>- 學習方式可以有很多種,除了直接看數學公式並迅速理解的朋友外,對於其他人來說,首先進行程式撰寫實作,了解結合這些數據使用這個庫可以得到這樣的輸出是如何運作的,這是更快的學習策略。<br>- 所以我認為這是一本包含機器學習廣泛領域程式碼的書,透過程式實作最為直接。<br>- 我是從R入門的,所以那時開始讀了『R數據科學』這本書,它成為了我現在的基礎。Python的機器學習書籍也許多,不必過分堅持某一本書,想表達的是「首要的是熟悉(經常會被數學卡住),接著是習慣(透過程式實作來體驗機器學習)」。
商業 實務中運用數據分析・AI的數據驅動思考 - 雖然「AI並非目的,而是一種手段」,但由於許多人卻將其強迫為「目的」,因此變得困擾,因此這本書成為必讀的10本之一。<br>- 講述在實際商業中運用數據分析的第一人者,河本薰的書籍。<br>- 關鍵詞是「決策」<blockquote>「可以在現場運用」也就是「運用於現場的決策」。而「可以運用於決策」則是「分析結果被用於決策過程中」。這樣的話,分析結果能夠被運用於決策,則不僅需要進行有用的數據分析,還需要「設計決策過程」以使分析結果真正能在決策中發揮作用。</blockquote>
商業 AI・數據分析專案全指南 商業力×技術力=價值創造 - 雖然是本關於專案全貌的書,但我將其定位於「商業」<br>- 一本從全貌角度解釋數據分析專案的書。並不是在談論演算法,而是關於如何設置專案、如何外包等事宜。<br>- 有人推薦這本作為入門書,但是否能夠引起共鳴則要打上問號。我認為這本書更適合那些經過一定程度的試錯之後進行整理。
數據科學 分析者的數據詮釋學入門 - 「我花了五年時間繞了個大圈子,學到這些到底是為了什麼!」<br>- 不過,如果最開始就只讀這本書是否能夠深入理解,還不確定。大概是在看過前述書籍並自己親自動手去探索過一番後,再來讀這本(可能並行也可以),會有更深刻的理解。<br>- 書中提到的「在數據的獲取・分析・詮釋・應用各個階段中應該了解的技術」,就算是對於已有相當經驗的人來說也能釐清誤解,為必讀之作。
數據科學 從基礎學起的統計學 - 東京大學出版社的《統計學入門》常被指定為入門書(我自己過去也這麼做過),但老實說,統計學的概念比較難,還是應該更專注於扎實掌握更基礎的部分,因此可以選擇這本。<br>- 看起來是北大農學部的統計學入門課程整理而成。因此對於數學不太熟悉的學生而言,會用非常仔細、生動的真實例子和圖表來進行清晰的解釋。<br>- 比起後面的《數據分析必備的知識・思考方式 統計學入門》範圍較小,在講解那些相對基本的概念上則會相對的詳細清晰。即便是自信於「統計學沒問題」的人,推測這本會更合適。
數據科學 初學者的模式識別 亦即初識模式本 - 由於有許多類似的書籍出版,或許還會有較好的書籍,但是(老實說我只知道這本),但這本仍然有良好的銷量,應該沒有問題。<br>- 這本書被認為是理論入門的經典,雖然沒有涉及深度學習,但幾乎全面涵蓋了機器學習中使用的方法。很多人推薦後面提到的PRML,但我認為如果不是研究者直接去讀那本會很容易中途放棄,還是先從這本開始比較好。<br>- 雖然書中沒有談及深度學習,但首要的是先掌握基本概念,另外書中似乎也有關於深度學習的篇章。
數據科學 用於不妥協的數據分析的微積分+線性代數入門 - 出色書籍不斷湧現的彩色系列<br>- 目錄一看,對於認真學習的人來說會明白。「正是我想知道的」這樣的內容都在書中。<br>- 先介紹線性代數的基礎→微積分的基礎→微積分與線性代數在數據分析中的關係<br>- 雖然微積分和線性代數在數學上很重要,但在機器學習中優先級較低的部分已經被大膽省略,作為本書的引導卻提到了當下流行的生成模型中的擴散模型。<br>- 問題演習最好換另一本進行,但數學的學習過程中對於所需範圍不清楚,這本書正好可以明確地指明「這個範圍」。<br>- 這是與《統計學的數學入門30講》替換的(長期感謝,若要演習的話,30講仍然很有用)。
數據科學 改訂新版 前處理大全 - 實際業務中會與數據的雜亂作戰。<br>- 雖然有人說數據分析的80%是前處理,但卻沒看到有專門的解說書,前一版出後,相關書籍陸續增加,但還是以這本的易懂性與全面性為主。<br>- 數據的匯總・結合・分割・生成等整形的大全。對於單一課題,會提出SQL、Python/Pandas系以及Python/Polars系三種語言的處理範例,以及明確各語言的優劣。<br>- 雖然網路上大多能找到資料,但如果因為主觀的理由導致陷入局部解,可能會有效率低下的代碼。就算只是看一下正確答案,也能避免數據前處理的深淵。
數據科學 數據可視化的設計 - 作者似乎是Tableau的顧問,但這本書在更廣泛的數據分析可視化上也能直接適用。對於不太懂數據分析的用戶或顧客,如何展示分析結果,這本書都認為是必讀。<br>- 在畫圖時,經常會無意間過度填充信息,這可能是每個人都有的經驗。本書中提到的「不要堆疊,去掉多餘」無疑是戳中了許多人的痛點。<br>- 在數據分析中的可視化書籍通常會以庫的使用為重點,但實際上想表達的意圖決定了圖的形式,而這方面進行解說的書籍卻很少。目次中的內容也都意識到了展示的方式。<blockquote>第1章 數據可視化「關鍵的關鍵」<br>第2章 這樣會瞬間變得更專業的小技巧<br>第3章 根據目的選擇圖表<br>第4章 通過案例學習-儀表板製作過程思考與標題-<br>第5章 為了讓其真正在組織中扎根</blockquote>

2. 商業力


在此介紹的書籍是關於數據分析並非目的而是手段,如何產生商業利益的書籍

2.1. 商業・主題定義的5本

  • 首先要明白的「戰略」,專案的推進方式和組織的存在方式等
  • 由於生成式AI簡化了狹義的分析過程,此時領域的重要性將更為突出

書名 內容
為何「戰略」會有差異。 - 這本書並非機器學習或數據分析的書。不過,還是有許多「用AI做某些事情」的例子,卻錯誤地把目的和手段搞混。因此有必要思考我們的公司和客戶到底想要什麼。<br>- 無論是數據分析是否有必要,對於這個數據分析專案要實現什麼,要考慮資源的限制等都必須整理清楚。這本書可能會成為各方共識的第一步。<br>- 雖然有很多書在討論「戰略」,但很少有書可以明確定義「戰略」是什麼。大家是否在不定義「戰略」的情況下隨便發言了呢?<br>- 一方面口口聲聲說「戰略」的人,卻又反過來挑剔那些被捨棄的選項,「難道這個觀點和那個觀點不也是必要的嗎?」,一再翻舊帳。<br>- 這本書是寫給行銷人員的,所以本書作者青木也是在學習相關的行銷知識,受到衝擊頗大。這是無論對於行銷還是其他任何涉及「戰略」的商業領域都通用的觀點。<br>- 大家都輕易使用「戰略」這個詞,且在沒有共識的情況下便開始破綻。<br>- 通過亞馬遜的介紹頁面來看,大多數公司不自覺地使用「戰略」這個詞。<blockquote>然而,經營戰略、市場戰略、廣告戰略和銷售戰略…<br>在企業之中「戰略」這一詞被過度頻繁地使用。由於定義和意義模糊,造成了現場的混亂和誤解,對於實際的戰略運用幫助不大。<br>換言之,「戰略」這個詞至今仍然相當模糊。理解戰略思考的一種方法,將有助於未來的選擇和決策。本書旨在讓讀者把戰略視為實際性思考的工具。</blockquote>
在工作中開始學習機器學習 第2版 - 在了解了整個AI專案之後,可以作為更具體的內容來閱讀,建議從現場的視角來看。<br>- 下面的目錄中顯示了「工作中使用」這一軸,概述了機器學習所需的項目<blockquote>1章 機器學習專案的啟動<br>2章 機器學習能做什麼?<br>3章 如何評估學習結果<br>4章 將機器學習整合到系統中<br>5章 收集學習所需的資源<br>6章 機器學習基礎設施的持續訓練<br>7章 效果驗證:基於機器學習的施策成果的判斷<br>8章 解釋機器學習模型<br>第II部分<br>9章 Kickstarter的分析,選擇不使用機器學習<br>10章 通過提升建模來提高市場資源的效率<br>11章 通過強化學習入門的賭徒算法<br>12章 在網路廣告中的機器學習</blockquote>
最強的數據分析組織 - 同樣是河本薰的書<br>- 講述他在大阪瓦斯工作時所組建的數據分析團隊<br>- 這本書也非常重要,對於那些概念不清楚的人,可以在某些文章中簡單了解,並做好理論武裝。
數據分析失敗案例集:從失敗中學習以獲得成功 - 如書中所述,真的會遇到這些問題!「AI是不懂的,所以我把它交給你了」的人,在機器學習和深度學習的區別也都不懂,卻會來插手,給大家帶來麻煩。<br>- 為了避免失敗,應該了解可能發生的失敗。<br>- 對於已經實踐過許多數據分析專案的朋友來說,僅僅是看目錄就會讓人感到淚目,而對於新人來說,書中滿載著應該多加注意的重點,警醒著未來的挑戰。<blockquote>第一部分 「靠AI糊弄過去!」<br>案例1 統一UI卻導致UX崩潰<br>案例2 誰的工作?這就成了問題<br>案例3 為了最先進的宣傳而進行的最先進專案<br>案例4 真的是存在季節性嗎<br>案例5 是否需要推薦<br>案例6 分析如何在現場使用<br>案例7 幾乎不會故障的產品的故障預測<br>案例8 AI這個詞的不確定性<br>案例9 這個目標變數可以嗎<br>專欄數據科學家的生活<br>第二部分 被數據科學家玩弄的計算<br>案例10 只想聽成功的報告<br>案例11 提升目標選取的必要性<br>案例12 決策樹分析不只有決策樹<br>案例13 領域知識的重要性<br>案例14 政治上的數字權利<br>案例15 即使是產品也需要領域知識<br>案例16 風格的差異造成的混亂<br>案例17 無論分析多少,賣不出去的東西就是賣不出去<br>專欄 數據分析絕對不會失敗<br>第三部分 超越那個失敗<br>案例18 BI報告的混亂狀態<br>案例19 除了匯總數據以外沒有準備的數據或者預測精度<br>案例20 驚喜地發現可用的數據竟然如此稀少<br>案例21 努力預測的卻是……<br>案例22 只看樹木不看森林的小心<br>案例23 面對超過總人口十分之一的ID數量<br>案例24 最終報告結束後統計條件確定<br>案例25 機器學習模組的使用壽命<br>專欄 絕對不會失敗的數據分析</blockquote>
解決商業課題的技術〜發揮數學模型力量的三步框架 - 新增<br>- 這個清單雖然以機器學習為主,但數據分析並不僅限於機器學習。這一點很多人都容易忽視,應該始終圍繞如何解決商業課題。<br>- 這本書以數學優化為重,具體講述如何解決商業問題,這是稀有之作<br>- 三步框架明確解決商業問題的步驟<ul><li>1. 將商業問題表述為數學優化問題</li><li>2. 建立數學模型,以從數據中推測未知參數</li><li>3. 解決數學優化問題並導出最佳行動</li></ul><br>- 雖然以行銷為例,但其它領域也可應用。<br>- 只是將數據應用於機器學習得出預測值,卻對商業沒有任何幫助的情況是常見的誤區。多數情況下都是為了「優化」(如點擊數或利潤最大化或作業時間和成本最小化)而使用機器學習。這本書清楚地將這一步驟呈現出來。

3. 數據科學力

3.1. 前處理・特徵工程的5本

  • 接下來,即使數據已經準備就緒,機器學習演算法卻相當挑剔。若沒有美味的(適合分類、迴歸等的)數據,它將難以產生合理的結果。
  • 如何將數據準備好以便可以被機器學習「品嚐」,前處理和特徵工程將是重要的工作。
  • 《樣本大小的決定方法》是一本好書,但難度較高;如果以數據為導向的機器學習為主的話,我認為《入門:樣本大小設計》更加確實地把基礎打好,因此未列入。

書名 概要
入門:樣本大小設計 - 本書的前言中說明了,為《樣本大小的決定方法》的前期入門書。<br>- 以R為主的說明如下。<br>- 針對1樣本、2樣本的均值、比例、敏感度與特異度檢驗<br>- 1樣本均值與比例、2樣本均值與比例差的信賴區間<br>- 基於模擬的樣本大小設計<br>- 雖然《樣本大小的決定方法》也是好書,但仍然有許多難處,盡量避免不熟悉本文法而影響,因此優先選擇本書扎實掌握基礎會更為妥當。

原文出處:https://qiita.com/aokikenichi/items/6934fb578686513fd496


共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
站長阿川

站長阿川私房教材:
學 JavaScript 前端,帶作品集去面試!

站長精心設計,帶你實作 63 個小專案,得到作品集!

立即開始免費試讀!