簡介

在本文中,我將為您提供適用於任何機器學習專案的終極 Python 庫:

  • 機器學習週期每個步驟必須了解的函式庫 - EDA、資料清理、資料工程、建模等…

  • 全部開源

  • 所有蟒蛇

辦公室


完整的應用程式

1. 🚀Taipy

讓我們先討論一些經常被忽視的事情——實際上讓你的模型易於存取和有用。

Taipy 將會做到這一點,並將您的機器學習模型提升到一個新的水平。

它是一個開源程式庫,旨在輕鬆開發前端 (GUI) 和 ML/資料管道。不需要其他知識(沒有 CSS,什麼都不需要!)。它旨在加快應用程式開發,從最初的原型到生產就緒的應用程式。

太比插畫

Taipy 確保您的 ML 模型可以進入成熟的試點和應用程式,給您的最終用戶留下深刻的印象。


QueenB 星星

https://github.com/Avaiga/taipy

我們已經快有 1000 顆星了,沒有你就無法做到這一點🙏


EDA、資料清理和資料工程

2.🐼Pandas

如何在不了解 Pandas 的情況下使用 Python 進行編碼?

該庫有兩個核心資料結構:資料幀和系列,允許快速靈活的資料清理和準備。基本功能包括:

  • 載入資料中

  • 重塑資料框

  • 基本統計

Pandas 是啟動資料科學計畫的工具。

其他並發試圖超越 Pandas,但沒有像 Dask 或 Polars 那樣廣泛使用。 這是未來文章的好主題!

Pandas 插畫


3.🌱Numpy

Numpy 雖然等級比 Pandas 低,但它是科學計算和資料預處理的必備工具。

它圍繞著陣列發展,並允許快速資料操作和數學函數。

該函式庫是另一個必須了解的 Python 函式庫,與 Pandas 一樣,也是以資料為中心的任務的必備函式庫。

Numpy 圖


4.🔢統計模型

顧名思義,該函式庫提供了統計分析函數。

一系列功能涵蓋從描述性分析到統計測試;它也是一個處理時間序列資料、單變數和多元統計資料等的優秀函式庫。

Statsmodel 插圖


5.👓YData Profiling

YData Profiling 透過一行程式碼徹底分析資料來促進 EDA 步驟。

分析包括缺失值檢測、相關性、分佈分析等。

該工具非常用戶友好且簡單,可以輕鬆加入到您的資料科學工具箱中。

YdataP 圖


機器學習/深度學習演算法

6.💼 Scikit-learn

這可能是 Python 最著名的 3 個函式庫,這是理所當然的。

Sklearn 是機器學習領域的參考書。它包括不同的模型,例如 K 均值聚類、回歸和分類演算法。

它在降維技術方面也很出色。

Sklearn也提供資料選擇和驗證功能。它易於學習/使用,應該成為您資料科學之旅中的首選 ML 庫。

Sklearn 插圖


7.🧠 Keras

Keras 是一個高階 API,運作在 TensorFlow 等框架之上。如果從神經網路開始,請從 Keras 開始。它非常適合快速實施,因為它簡化了實施過程,使其成為神經網路實施的最佳初學者友善選項。

Keras 圖


8.🧠💪TensorFlow

這個庫是神經網路建模必須知道的。非常適合處理影像分類或 NLP(自然語言處理)等非結構化資料。 TensorFlow 廣泛應用於研究和工業領域,因為它為神經網路的設計和操作提供了完整的 API。 Keras(上面提到的)提供了一個更高層級(更簡單)的 API(它是建構在 TensorFlow 之上)。

TF 圖


9.🌴XGBoost

XGBoost 是有關機器學習演算法的最受歡迎的函式庫之一。

這個梯度提升庫廣泛用於現實生活中的用例,特別是表格資料。

它是 Kaggle 競賽獲勝者的最愛。

該庫包括回歸和分類演算法,但也提供特徵選擇工具。

XGBoost 插畫


10.🐈CatBoost

如果您的資料集主要由分類資料組成,那麼這個函式庫代表分類提升(Categorical Boosting),它是您的最佳選擇。該庫將規避一種熱編碼的複雜性,從而無需預處理分類資料。當使用預設參數執行時,它可以提供比 XGBoost 更好的精度。

Catboost 圖


希望您喜歡這篇文章!

我是一名新手作家,歡迎任何改進建議!

菜鳥 gif

如果您有任何疑問,請隨時與我們聯繫。


原文出處:https://dev.to/taipy/top-10-python-libraries-for-any-ml-projects-3gfp


共有 0 則留言