因為反應熱烈,所以我們製作了2025年版。由於今年也不少出色的書籍,我還有一些書尚未追蹤到。稍後我會逐步添加編輯。
生成式AI與自然語言處理已分為別的文章。
2025年版機器學習・數據分析的100本書+5本 | 2024年版機器學習・數據分析的必須10本書+熱門90本+下一步5本=105本 | 更新狀況 |
---|---|---|
1. 必須的10本 | 1. 必須的10本 | 無變更 |
2. 商業力 | ||
2.1. 商業・主題定義的5本 | 2.1. 商業・主題定義的4本 | 增加1本 |
3. 數據科學力 | ||
3.1. 前處理・特徵工程的5本 | 2.2. 前處理・特徵工程的5本 | 無變更 |
3.2. 分析演算法 | ||
3.2.1. 分析演算法 統計學的3本 | 2.3.1. 分析演算法 統計學的3本 | 替換1本 |
3.2.2. 分析演算法 機器學習演算法-1的5本 | 2.3.2. 分析演算法 機器學習演算法-1的5本 | 無變更 |
3.2.3. 分析演算法 機器學習演算法-2(深度學習)的4本 | 2.3.3. 分析演算法 機器學習演算法-2(深度學習)的4本 | 無變更 |
3.2.4. 分析演算法 因果推論・因果探索的6本 | 2.3.4. 分析演算法 因果推論・因果探索的6本 | 無變更 |
3.2.5. 分析演算法 異常檢測的2本 | 2.3.5. 分析演算法 異常檢測的2本 | 無變更 |
3.2.6. 分析演算法 網路分析的4本 | 2.3.6. 分析演算法 網路分析的2本 | 增加2本 |
3.2.7. 分析演算法 稀疏建模的2本 | 2.3.7. 分析演算法 稀疏建模的2本 | 無變更 |
3.2.8. 分析演算法 強化學習的3本 | 2.3.8. 分析演算法 強化學習的2本 | 增加1本 |
3.2.9. 分析演算法 貝葉斯統計・貝葉斯機器學習的5本 | 2.3.9. 分析演算法 貝葉斯統計・貝葉斯機器學習的4本 | 增加1本 |
(刪除,別篇文章)2025年版 生成AI・大型語言模型的學習書籍30冊(必須5冊+經典15冊+優秀10冊) | 2.5.2. 生成AI的6本 | カテゴリー刪除,另立文章 |
3.2.10. 分析演算法 評估指標・XAI的4本 | 2.3.10. 分析演算法 評估指標・XAI的4本 | 無變更 |
3.3. 數據可視化的7本 | 2.4. 數據可視化的6本 | 增加1本 |
3.4. 數據分類 | ||
(刪除,別篇文章)2025年版 生成AI・大型語言模型的學習書籍30冊(必須5冊+經典15冊+優秀10冊) | 2.5.1. 自然語言處理的7本 | 类别刪除,另立文章 |
3.4.1. 時序分析的8本 | 2.5.3. 時序分析的7本 | 增加1本 |
3.4.2. 影像處理的1本 | 2.5.4. 影像處理的1本 | 無變更 |
3.4.3. 地理空間的1本 | 2.6. 地理空間的2本 | 2.5.5. 地理空間的1本 |
3.5. 機器學習周邊的手法5本 | 2.6. 機器學習周邊的手法4本 | 增加1本 |
3.6. 數學基礎的4本 | 2.7. 數學基礎的4本 | 無變更 |
3.7. 程式設計的3本 | 2.8. 程式設計的3本 | 無變更 |
4. 數據工程力 | ||
4.1. 數據管理的3本 | 3. 數據管理的3本 | 無變更 |
4.2. 建設・運營的2本 | 4.1. 建設・運營的2本 | 無變更 |
5. 資格・KAGGLE | ||
5.1. 資格的3本 | 4.2. 資格的2本 | 增加1本 |
5.2. KAGGLE的4本 | 4.3. KAGGLE的3本 | 增加1本 |
6. 下一步的5本 | 5. 下一步的5本 | 替換2本 |
總計104本 | 增加20本,替換3本,刪除13本(自然語言處理7本,生成AI6本合併為別的文章) |
長長的開場結束了,那麼現在開始吧!
類別 | 書名 | 內容 |
---|---|---|
最初的1本 | Python機器學習程式設計[PyTorch&scikit-learn編] (impress top gear) | - 我讀的是這系列的初版,實話是這版我並未閱讀,但評價仍佳,因此列出來了。已出至第三版,2022年新推出的PyTorch & scikit-learn版本,但在實質上算是第4版,也就是最新版。<br>- 學習方式可以有很多種,除了直接看數學公式並迅速理解的朋友外,對於其他人來說,首先進行程式撰寫實作,了解結合這些數據使用這個庫可以得到這樣的輸出是如何運作的,這是更快的學習策略。<br>- 所以我認為這是一本包含機器學習廣泛領域程式碼的書,透過程式實作最為直接。<br>- 我是從R入門的,所以那時開始讀了『R數據科學』這本書,它成為了我現在的基礎。Python的機器學習書籍也許多,不必過分堅持某一本書,想表達的是「首要的是熟悉(經常會被數學卡住),接著是習慣(透過程式實作來體驗機器學習)」。 |
商業 | 實務中運用數據分析・AI的數據驅動思考 | - 雖然「AI並非目的,而是一種手段」,但由於許多人卻將其強迫為「目的」,因此變得困擾,因此這本書成為必讀的10本之一。<br>- 講述在實際商業中運用數據分析的第一人者,河本薰的書籍。<br>- 關鍵詞是「決策」<blockquote>「可以在現場運用」也就是「運用於現場的決策」。而「可以運用於決策」則是「分析結果被用於決策過程中」。這樣的話,分析結果能夠被運用於決策,則不僅需要進行有用的數據分析,還需要「設計決策過程」以使分析結果真正能在決策中發揮作用。</blockquote> |
商業 | AI・數據分析專案全指南 商業力×技術力=價值創造 | - 雖然是本關於專案全貌的書,但我將其定位於「商業」<br>- 一本從全貌角度解釋數據分析專案的書。並不是在談論演算法,而是關於如何設置專案、如何外包等事宜。<br>- 有人推薦這本作為入門書,但是否能夠引起共鳴則要打上問號。我認為這本書更適合那些經過一定程度的試錯之後進行整理。 |
數據科學 | 分析者的數據詮釋學入門 | - 「我花了五年時間繞了個大圈子,學到這些到底是為了什麼!」<br>- 不過,如果最開始就只讀這本書是否能夠深入理解,還不確定。大概是在看過前述書籍並自己親自動手去探索過一番後,再來讀這本(可能並行也可以),會有更深刻的理解。<br>- 書中提到的「在數據的獲取・分析・詮釋・應用各個階段中應該了解的技術」,就算是對於已有相當經驗的人來說也能釐清誤解,為必讀之作。 |
數據科學 | 從基礎學起的統計學 | - 東京大學出版社的《統計學入門》常被指定為入門書(我自己過去也這麼做過),但老實說,統計學的概念比較難,還是應該更專注於扎實掌握更基礎的部分,因此可以選擇這本。<br>- 看起來是北大農學部的統計學入門課程整理而成。因此對於數學不太熟悉的學生而言,會用非常仔細、生動的真實例子和圖表來進行清晰的解釋。<br>- 比起後面的《數據分析必備的知識・思考方式 統計學入門》範圍較小,在講解那些相對基本的概念上則會相對的詳細清晰。即便是自信於「統計學沒問題」的人,推測這本會更合適。 |
數據科學 | 初學者的模式識別 亦即初識模式本 | - 由於有許多類似的書籍出版,或許還會有較好的書籍,但是(老實說我只知道這本),但這本仍然有良好的銷量,應該沒有問題。<br>- 這本書被認為是理論入門的經典,雖然沒有涉及深度學習,但幾乎全面涵蓋了機器學習中使用的方法。很多人推薦後面提到的PRML,但我認為如果不是研究者直接去讀那本會很容易中途放棄,還是先從這本開始比較好。<br>- 雖然書中沒有談及深度學習,但首要的是先掌握基本概念,另外書中似乎也有關於深度學習的篇章。 |
數據科學 | 用於不妥協的數據分析的微積分+線性代數入門 | - 出色書籍不斷湧現的彩色系列<br>- 目錄一看,對於認真學習的人來說會明白。「正是我想知道的」這樣的內容都在書中。<br>- 先介紹線性代數的基礎→微積分的基礎→微積分與線性代數在數據分析中的關係<br>- 雖然微積分和線性代數在數學上很重要,但在機器學習中優先級較低的部分已經被大膽省略,作為本書的引導卻提到了當下流行的生成模型中的擴散模型。<br>- 問題演習最好換另一本進行,但數學的學習過程中對於所需範圍不清楚,這本書正好可以明確地指明「這個範圍」。<br>- 這是與《統計學的數學入門30講》替換的(長期感謝,若要演習的話,30講仍然很有用)。 |
數據科學 | 改訂新版 前處理大全 | - 實際業務中會與數據的雜亂作戰。<br>- 雖然有人說數據分析的80%是前處理,但卻沒看到有專門的解說書,前一版出後,相關書籍陸續增加,但還是以這本的易懂性與全面性為主。<br>- 數據的匯總・結合・分割・生成等整形的大全。對於單一課題,會提出SQL、Python/Pandas系以及Python/Polars系三種語言的處理範例,以及明確各語言的優劣。<br>- 雖然網路上大多能找到資料,但如果因為主觀的理由導致陷入局部解,可能會有效率低下的代碼。就算只是看一下正確答案,也能避免數據前處理的深淵。 |
數據科學 | 數據可視化的設計 | - 作者似乎是Tableau的顧問,但這本書在更廣泛的數據分析可視化上也能直接適用。對於不太懂數據分析的用戶或顧客,如何展示分析結果,這本書都認為是必讀。<br>- 在畫圖時,經常會無意間過度填充信息,這可能是每個人都有的經驗。本書中提到的「不要堆疊,去掉多餘」無疑是戳中了許多人的痛點。<br>- 在數據分析中的可視化書籍通常會以庫的使用為重點,但實際上想表達的意圖決定了圖的形式,而這方面進行解說的書籍卻很少。目次中的內容也都意識到了展示的方式。<blockquote>第1章 數據可視化「關鍵的關鍵」<br>第2章 這樣會瞬間變得更專業的小技巧<br>第3章 根據目的選擇圖表<br>第4章 通過案例學習-儀表板製作過程思考與標題-<br>第5章 為了讓其真正在組織中扎根</blockquote> |
在此介紹的書籍是關於數據分析並非目的而是手段,如何產生商業利益的書籍
書名 | 內容 |
---|---|
為何「戰略」會有差異。 | - 這本書並非機器學習或數據分析的書。不過,還是有許多「用AI做某些事情」的例子,卻錯誤地把目的和手段搞混。因此有必要思考我們的公司和客戶到底想要什麼。<br>- 無論是數據分析是否有必要,對於這個數據分析專案要實現什麼,要考慮資源的限制等都必須整理清楚。這本書可能會成為各方共識的第一步。<br>- 雖然有很多書在討論「戰略」,但很少有書可以明確定義「戰略」是什麼。大家是否在不定義「戰略」的情況下隨便發言了呢?<br>- 一方面口口聲聲說「戰略」的人,卻又反過來挑剔那些被捨棄的選項,「難道這個觀點和那個觀點不也是必要的嗎?」,一再翻舊帳。<br>- 這本書是寫給行銷人員的,所以本書作者青木也是在學習相關的行銷知識,受到衝擊頗大。這是無論對於行銷還是其他任何涉及「戰略」的商業領域都通用的觀點。<br>- 大家都輕易使用「戰略」這個詞,且在沒有共識的情況下便開始破綻。<br>- 通過亞馬遜的介紹頁面來看,大多數公司不自覺地使用「戰略」這個詞。<blockquote>然而,經營戰略、市場戰略、廣告戰略和銷售戰略…<br>在企業之中「戰略」這一詞被過度頻繁地使用。由於定義和意義模糊,造成了現場的混亂和誤解,對於實際的戰略運用幫助不大。<br>換言之,「戰略」這個詞至今仍然相當模糊。理解戰略思考的一種方法,將有助於未來的選擇和決策。本書旨在讓讀者把戰略視為實際性思考的工具。</blockquote> |
在工作中開始學習機器學習 第2版 | - 在了解了整個AI專案之後,可以作為更具體的內容來閱讀,建議從現場的視角來看。<br>- 下面的目錄中顯示了「工作中使用」這一軸,概述了機器學習所需的項目<blockquote>1章 機器學習專案的啟動<br>2章 機器學習能做什麼?<br>3章 如何評估學習結果<br>4章 將機器學習整合到系統中<br>5章 收集學習所需的資源<br>6章 機器學習基礎設施的持續訓練<br>7章 效果驗證:基於機器學習的施策成果的判斷<br>8章 解釋機器學習模型<br>第II部分<br>9章 Kickstarter的分析,選擇不使用機器學習<br>10章 通過提升建模來提高市場資源的效率<br>11章 通過強化學習入門的賭徒算法<br>12章 在網路廣告中的機器學習</blockquote> |
最強的數據分析組織 | - 同樣是河本薰的書<br>- 講述他在大阪瓦斯工作時所組建的數據分析團隊<br>- 這本書也非常重要,對於那些概念不清楚的人,可以在某些文章中簡單了解,並做好理論武裝。 |
數據分析失敗案例集:從失敗中學習以獲得成功 | - 如書中所述,真的會遇到這些問題!「AI是不懂的,所以我把它交給你了」的人,在機器學習和深度學習的區別也都不懂,卻會來插手,給大家帶來麻煩。<br>- 為了避免失敗,應該了解可能發生的失敗。<br>- 對於已經實踐過許多數據分析專案的朋友來說,僅僅是看目錄就會讓人感到淚目,而對於新人來說,書中滿載著應該多加注意的重點,警醒著未來的挑戰。<blockquote>第一部分 「靠AI糊弄過去!」<br>案例1 統一UI卻導致UX崩潰<br>案例2 誰的工作?這就成了問題<br>案例3 為了最先進的宣傳而進行的最先進專案<br>案例4 真的是存在季節性嗎<br>案例5 是否需要推薦<br>案例6 分析如何在現場使用<br>案例7 幾乎不會故障的產品的故障預測<br>案例8 AI這個詞的不確定性<br>案例9 這個目標變數可以嗎<br>專欄數據科學家的生活<br>第二部分 被數據科學家玩弄的計算<br>案例10 只想聽成功的報告<br>案例11 提升目標選取的必要性<br>案例12 決策樹分析不只有決策樹<br>案例13 領域知識的重要性<br>案例14 政治上的數字權利<br>案例15 即使是產品也需要領域知識<br>案例16 風格的差異造成的混亂<br>案例17 無論分析多少,賣不出去的東西就是賣不出去<br>專欄 數據分析絕對不會失敗<br>第三部分 超越那個失敗<br>案例18 BI報告的混亂狀態<br>案例19 除了匯總數據以外沒有準備的數據或者預測精度<br>案例20 驚喜地發現可用的數據竟然如此稀少<br>案例21 努力預測的卻是……<br>案例22 只看樹木不看森林的小心<br>案例23 面對超過總人口十分之一的ID數量<br>案例24 最終報告結束後統計條件確定<br>案例25 機器學習模組的使用壽命<br>專欄 絕對不會失敗的數據分析</blockquote> |
解決商業課題的技術〜發揮數學模型力量的三步框架 | - 新增<br>- 這個清單雖然以機器學習為主,但數據分析並不僅限於機器學習。這一點很多人都容易忽視,應該始終圍繞如何解決商業課題。<br>- 這本書以數學優化為重,具體講述如何解決商業問題,這是稀有之作<br>- 三步框架明確解決商業問題的步驟<ul><li>1. 將商業問題表述為數學優化問題</li><li>2. 建立數學模型,以從數據中推測未知參數</li><li>3. 解決數學優化問題並導出最佳行動</li></ul><br>- 雖然以行銷為例,但其它領域也可應用。<br>- 只是將數據應用於機器學習得出預測值,卻對商業沒有任何幫助的情況是常見的誤區。多數情況下都是為了「優化」(如點擊數或利潤最大化或作業時間和成本最小化)而使用機器學習。這本書清楚地將這一步驟呈現出來。 |
書名 | 概要 |
---|---|
入門:樣本大小設計 | - 本書的前言中說明了,為《樣本大小的決定方法》的前期入門書。<br>- 以R為主的說明如下。<br>- 針對1樣本、2樣本的均值、比例、敏感度與特異度檢驗<br>- 1樣本均值與比例、2樣本均值與比例差的信賴區間<br>- 基於模擬的樣本大小設計<br>- 雖然《樣本大小的決定方法》也是好書,但仍然有許多難處,盡量避免不熟悉本文法而影響,因此優先選擇本書扎實掌握基礎會更為妥當。 |
原文出處:https://qiita.com/aokikenichi/items/6934fb578686513fd496