到 2024 年,Python 仍然是資料科學的主要語言,因為它簡單,而且還擁有用於資料清理、特徵工程、視覺化和機器學習的各種函式庫。
如果您想開始或將您的職業生涯轉向更加以資料科學為導向的方向,此列表將為您提供您需要了解的庫。
領域:全面應用
Taipy 旨在加快應用程式開發,從最初的原型到生產就緒的應用程式。
這個開源 Python 函式庫專為輕鬆開發前端 (GUI) 和 ML/資料管道而設計。
它程式碼量低,專為任何 pythonista 設計。
主要特徵:
邁向資料科學:筆記本相容並與機器學習平台(Dataiku、Databricks 等......)輕鬆集成
Taipy 隨著應用程式用戶的增加而擴展
Taipy 適用於大型資料集
非同步模式:非常適合處理高負載應用程式
{% cta https://github.com/Avaiga/taipy %} Star ⭐ Taipy 儲存庫 {% endcta %}
您的支持意義重大🌱,並且在許多方面為我們帶來了很大的幫助,例如寫文章! 🙏
領域:資料視覺化
Matplotlib 是最著名的視覺化小工具庫。
借助該庫,您可以利用其廣泛的圖表和自訂功能輕鬆繪製任何 2D 圖形。
一個很棒的庫,可以透過簡單快速的圖表檢查模型的效能。
{% cta https://github.com/matplotlib/matplotlib %} Star ⭐ 儲存庫 {% endcta %}
領域:資料處理與分析
如何在不了解 Pandas 的情況下使用 Python 進行編碼?熊貓是Python皇室!
該庫的兩個資料結構是:
資料框
系列
該庫允許快速且有效率地載入、清理和準備資料。
主要功能包括:
載入資料中
重塑資料框
基礎統計
{% cta https://github.com/pandas-dev/pandas %} Star ⭐ 儲存庫 {% endcta %}
領域:數值計算
Numpy 不如 Pandas 通用,但它是科學計算和資料預處理的重要工具。
使用 Numpy 時,您將熟悉陣列並知道如何有效地進行資料操作和數學函數。
這個庫對於您的資料科學專案絕對是必不可少的。
{% cta https://github.com/numpy/numpy %} Star ⭐ 儲存庫 {% endcta %}
領域:機器學習
另一個 Python 函式庫,這一次,您在 Python 中進行機器學習的首選。
該庫有多種演算法:
K-均值聚類
回歸
分類
但它還透過例如資料分割和降維技術來設定您的機器學習專案。
{% cta https://github.com/scikit-learn/scikit-learn %} Star ⭐ 儲存庫 {% endcta %}
領域:統計資料視覺化
Seaborn 將為 Matplotlib 帶來一些附加功能。
當 Matplotlib 強調精確性和簡單性時,該程式庫帶來了複雜且有吸引力的視覺化效果。
{% cta https://github.com/mwaskom/seaborn %} Star ⭐ 儲存庫 {% endcta %}
領域:深度學習
Pytorch 還是 TensorFlow 這就是問題所在。
這兩個庫提供了神經網路的介面。
它們非常靈活,可為您提供高效的 API 來建立和建立神經網路模型。
選擇取決於您,但這裡有一些區別:
PyTorch 具有更自然語言處理的角度
Pytorch 更具 Python 風格
{% cta https://github.com/tensorflow/tensorflow %} Star ⭐ TensorFlow 儲存庫 {% endcta %}
{% cta https://github.com/pytorch/pytorch %} Star ⭐ PyTorch 儲存庫 {% endcta %}
領域:深度學習
Keras 是開始深度學習的好方法,因為它在 TensorFlow 之上執行,但實作過程得到簡化。
{% cta https://github.com/keras-team/keras %} Star ⭐ 儲存庫 {% endcta %}
領域:統計建模
該庫有一系列統計模型。
它是機器學習專案探索性資料分析階段的絕佳工具。
一系列功能涵蓋從描述性分析到統計測試;它也是一個適合處理時間序列資料、單變數和多元統計等的函式庫。
{% cta https://github.com/statsmodels/statsmodels %} Star ⭐ 儲存庫 {% endcta %}
領域:快速資料操作
Polars 是一個為處理大型資料集而建立的 DataFrame 函式庫。
它的靈感來自 Python 的頂級庫 - Pandas,但進行了(快速)調整,速度提高了 10 到 100 倍。處理大型資料集時必須了解的工具。
{% cta https://github.com/pola-rs/polars %} Star ⭐ 儲存庫 {% endcta %}
這十個函式庫對於任何機器學習專案都是必不可少的,掌握它們將增強您的資料科學履歷。
請隨時評論您最喜歡的 ML/AI 庫!
原文出處:https://dev.to/taipy/python-libraries-for-your-datascience-cv-in-2024-5cl7