🔧 阿川の電商水電行

Shopify 顧問、維護與客製化

💡

小任務 / 單次支援方案

單次處理 Shopify 修正／微調

⭐️

維護方案

每月 Shopify 技術支援 + 小修改 + 諮詢

🚀

專案建置

Shopify 功能導入、培訓 + 分階段交付

👉 瞭解詳情 / 免費諮詢

小編精選 - 技術文章翻譯 · 02月21日

製造業的統計學和機器學習

文章大意

執筆：段（倫敦帝國學院・Nospare）、酒井（筑波大學・Nospare）、小林（明治大學・Nospare）

本文針對從事製造業或即將從事該行業的數據科學家，介紹製造業中的統計與機器學習技術及具體應用案例，特別著眼於減少製造業研究與開發所需的時間與費用。具體內容包括：

代理模型（Surrogate Modelling）
貝葉斯最優實驗設計法（Bayesian Optimal Experimental Design; BOED）
物理知識驅動的機器學習（Physics Informed Machine Learning ; PIML）

第一節將整理製造業各個場景中應用統計與機器學習的商業價值，讓讀者掌握全貌與動機。對於有興趣技術內容的讀者，可以直接從第二章的「代理模型」開始閱讀。第三章介紹了包含代理模型的實驗框架——「貝葉斯最優實驗設計法（BOED）」。最後，將介紹近年備受關注的將物理法則納入統計與機器學習模型的「物理知識驅動的機器學習（PIML）」。

1. 將機器學習導入製造業的商業價值

資本效率改善
製造業是對機器、設備及基礎設施等固定資本依賴度高的行業，商業觀點下的主要目標是降低運營成本，同時最大化重型設備的價值。
- 資產運行率最大化：每當設備因故障停機時，將產生維修成本及因生產中斷而造成的損失。藉由利用機器學習預測故障並進行預測維護，能夠維持設備的高運行率。
- 良率最佳化：將投入的原材料與最終產出的良品比例稱為良率（Yield，產出利潤的產品）。在半導體或化工等行業，良率直接影響利潤。透過機器學習分析及最佳化流程參數，即使將廢棄率減少1%，也能以純利潤的形式反映出來。
- 庫存流動性：儲存生產出來的產品需耗費成本。機器學習能提高需求預測的準確度，接近「即時生產」（Just in time），讓運營資金從安全庫存或倉庫空間中解放出來。
研究與開發所需時間與費用的減少
- 製造業中的研究開發實驗往往需花費巨額成本以獲得單一數據點。例如，新合金的特性評估可能需要消耗昂貴的稀土解體，或占用重要的生產線數小時。傳統實驗計畫下，無論實際上是否有趣，都只能測試事先設定的參數組合。藉由使用機器學習，能夠減少實驗次數，從而大幅節省原材料費及機械停工時間。
- 機器學習可以在數秒內模擬數千種材料組合或產品設計（例如：新合金的發現或藥物配方的開發），因此研究開發週期大幅縮短，能夠比競爭者早幾個月將產品投入市場。
風險減少
- 供應鏈可視化：機器學習能夠整合外部數據（如天氣、地緣政治新聞、港口擁堵情況），預測供應鏈中斷，從而在市場反應之前確保替代供應商的可用性。
- 安全與責任問題：機器學習系統可實時監控作業人員的安全，減少事故不僅能保障員工，更可降低保險費用並防範責任訴訟及聲譽損失。
數據之作為資產：隨著機器學習的應用，數據質量不斷提高，業務效率隨之提升。雖然競爭對手可以採用相同的機器或機器學習模型，但無法獲得歷史流程數據或優化過的學習已知模型。這些智慧財產構成了對競爭對手的巨大進入壁壘。

2. 代理模型

如前所述，製造業研究開發中數據點的獲取通常涉及實際製作原型進行實驗，或根據大規模物理模型進行模擬，這通常會耗費大量成本和時間。代理模型顧名思義，旨在透過機器學習對輸入與輸出之間複雜的非線性關係進行逼近，且能夠快速預測設計空間內在任意條件下的輸出，這樣可以減少實驗與計算所需的時間和費用。而透過代理模型的運用，還能檢測那些物理模擬可能忽略的偶發性故障或異常，已經有相關案例報導。

（新）樣本的獲取依然需要實際執行實驗或模擬。若能在更多條件下獲取數據，則能更詳細地捕捉到關心的物理現象，但時間與費用的約束需求確定適合的均勻樣本采集方法來充分代表有限的樣本大小。標準方法如拉丁超立方體抽樣等，也可應用適應性方法，如接下來會說明的貝葉斯最優實驗設計法。在較複雜的問題中，透過深度學習模型生成設計也是一種可能。

代理模型的輸入與輸出變數需依據問題選擇適當的項目。輸出變數通常是某種性能指標（例如：汽車與行人碰撞時行人的頭部損傷程度），而輸入變數則為影響該指標的各種條件（例如：引擎蓋形狀、行駛速度等）。
代理模型本身則將依據問題應用高斯過程回歸或深度神經網絡等機器學習標準方法。最近的發展也開始採用如接下來會提到的明確納入物理法則的PIML。

具體案例（半導體晶片製造）
為了加深對代理模型的理解，我們考慮半導體製造的例子。需要注意的是，此例僅為提升對代理模型理解而設計的虛構且簡易的例子，並未完全遵循實際製造過程。

半導體晶片是通過在稱為晶圓的矽圓盤上，重疊數十億個極小的開關或電路多層製作而成的。為了製造這些微細電路，生產過程中主要需重複以下步驟數十次：

晶圓準備：準備純度高的矽圓盤作為基底。
成膜（★）：在晶圓表面上，塗佈極薄且均勻的膜，作為新電路的層。
曝光：使用光線將電路設計圖燒錄在膜上。
蝕刻：根據燒錄的設計圖，去除多餘的膜，形成實際的電路形狀。

這裡我們著重於第二步的成膜過程（★）。成膜過程使用的技術為化學氣相沉積法（Chemical Vapor Deposition; CVD）。在CVD過程中，晶圓置於密閉真空裝置內，並流入特殊氣體。隨著裝置的加熱，熱能使氣體發生化學反應，於晶圓表面形成二氧化矽等薄固體膜。這層膜最終作為隔離層，能夠在電路中傳導或阻斷電流。

在CVD過程中，重要的是確保從晶圓中心到邊緣的膜厚度完全均勻。如果由於氣體流動或溫度的微小偏差導致外圍比中心厚，則完成的晶片的電氣處理速度及性能將產生波動。所有不滿足標準的晶片都將被報廢，這將導致良率降低，進而帶來企業的經濟損失。

為了預測膜的均勻性，工程師們執行流體力學、熱傳導及化學反應速率模型的物理模擬。一次執行此模擬可能需要12小時以上的運算，因此無法隨意選擇實驗設置。於是開始構建以下的代理模型。

模型的輸入變數
將計算成本高昂的物理模擬器定義為函數 $f(\mathbf{x})$。且定義輸入向量為 $\mathbf{x}\in\mathcal{X}\subset\mathbb{R}^d$。此次的反應爐中，假設 $\mathbf{x}$ 由以下三個控制參數（$d=3$）組成：

溫度（$T$）：晶圓保持台的熱度。熱量供應化學反應所需的活化能量。若溫度過低則成膜進行困難；反之，若過高則氣體在到達晶圓之前就已反應。
壓力（$P$）：腔體中的真空度。控制氣體分子在碰撞其他分子之前的移動距離，即平均自由程。這將影響氣體流動是否順暢，進而直接影響膜的均勻成長程度。
原料氣體流量（$F$）：向腔體內輸送反應氣體的速度。需保證晶圓的外圍有足夠氣體流量以避免化學反應出現不足的情況，但過量流量則會造成昂貴的化學藥品浪費。

輸出：不均勻性指標（$y$）：模擬器將輸出膜厚標準偏差與平均膜厚的比值。

目標：最小化函數 $f(\mathbf{x})$（使膜厚的波動接近於零）。

CVD代理模型.png

圖1：上圖就使用代理模型的一次實驗循環進行了說明，揭示了代理模型及其決策邏輯之間的關係。上段顯示了真實模擬器（黑色虛線）和利用高斯過程的代理模型預測值（實線）之間的比較。紅點為用於GP學習的過去觀測值，網狀部分則視覺化模型預測的不確定性（95%信賴區間）。下段面板顯示使用新實驗參數進行實驗的潛在價值的量化「期望改善量」獲得函數。垂直虛線指向下一次需測試的實驗參數值，該值對應於獲得函數的最大值。這一選擇策略在於平衡「活用」：即瞄準CVD不均勻性指標可能最小化的區域，與「探索」：即對不確定性高的區域進行取樣以提高模型整體精度。

其常採用的代理模型是以貝葉斯統計學著稱的高斯過程（Gaussian Process; GP）。高斯過程不僅靈活地逼近複雜未知的模擬函數 $f(\mathbf{x})$，同時也能量化預測的不確定性（信心指數；上圖上方面板中影子部分）。此外，作為數學優勢，後述的期望改善量（Expected Improvement; EI；上圖下方面板）的解析解能夠獲得，因此在貝葉斯最佳化中極為便利。

高斯過程補充：通常的線性回歸分析針對數據估算最適合的單一直線，而高斯過程則將可能符合數據的無數曲線束（函數分佈）通通以隨機方式進行處理。在尚無數據的情況下（事前分佈），線條可呈現各種形狀，因此不確定性最大。然而，當執行模擬並獲得觀測數據後，那些觀測點將使「線條束」受到約束（更新為事後分佈）。最終的結果則表現了：在存在數據的地區預測的確信度提高，而在數據缺乏的空白區，線條則發生散佈（=不確定性高）。

數學定義與組成元素
具體而言，對於複雜且未知的模擬函數 $f(\mathbf{x})$，賦予以下的高斯過程的事前分佈：

$$
f(\mathbf{x}) \sim \mathcal{GP}(m(\mathbf{x}), k(\mathbf{x}, \mathbf{x}'))
$$

決定該模型形狀的有以下兩個要素。

平均函數 $m(\mathbf{x})$：能反映函數 $f(\mathbf{x})$ 的平均行為（大致趨勢）的事前知識。若對模擬器輸出未特別掌握之事前知識，可將其簡單設為 $m(\mathbf{x})=0$。
協方差函數 $k(\mathbf{x},\mathbf{x}')$：能反映 $f(\mathbf{x})$ 的平滑性及連續性之事前知識。直觀來看，這是重要部分，定義了一個規則：「輸入參數 $\mathbf{x}$ 與 $\mathbf{x}'$ 近時，輸出的不均勻性指標值 $f(\mathbf{x})$ 與 $f(\mathbf{x}')$ 也應該接近」。

假設物理模擬器執行 $n$ 次。由此獲得數據集 $\mathcal{D} = {X, \mathbf{y}}$。此處，$X$ 為 $n \times 3$ 的設計矩陣，$\mathbf{y}$ 為觀測到的不均勻性指標值的 $n \times 1$ 向量。基於獲得的數據及貝葉斯定理，亦可解析地導出尚未嘗試的參數設置 $\mathbf{x}_1$ 的事後預測分佈：

$$
f(\mathbf{x}_1) | \mathcal{D}, \mathbf{x}_1 \sim \text{Normal}(\mu(\mathbf{x}_1), \sigma^2(\mathbf{x}_1))
$$

此處，$\mu(\mathbf{x}_1)$ 為預測點 $\mathbf{x}_1$ 的預測值的平均值，$\sigma^2(\mathbf{x}_1)$ 則為方差。

建構代理模型本身並非最終目標。最終的目標是，要在最大化預測時降低高成本的額外模擬執行次數後，找到最優設置 $\hat{\mathbf{x}} = \text{argmin } f(\mathbf{x})$。

這裡，利用代理模型的事後分佈來定義獲得函數 $\alpha(\mathbf{x})$。此函數平衡兩種觀點的最佳狀態：

活用（Exploitation）：評估事後分佈的預測均勻性指標的預測均值 $\mu(\mathbf{x})$ 低的參數（=預測均勻性高）。
探索（Exploration）：評估事後分佈的方差 $\sigma^2(\mathbf{x})$ 高的參數（=預測不確定性大，尚未完全了解）。

期望改善量（Expected Improvement; EI）
在工程領域的最佳化中，最常見的獲得函數為期望改善量（EI）。令目前觀測到的最佳（最小）不均勻性指標為 $f^+$。

評估新點 $\mathbf{x}_*$ 時的改善量定義為 $I(\mathbf{x}_1) = \max(0, f^+ - f(\mathbf{x}_1))$。使用高斯過程時，能求出該改善量的解析期望值。

$$
\text{EI}(\mathbf{x}_1) = \mathbb{E}[I(\mathbf{x}_1) \mid \mathcal{D}] = (f^+ - \mu(\mathbf{x}_1)) \Phi(\mathbf{z}_1) + \sigma(\mathbf{x}_1) \phi(\mathbf{z}_1)
$$

此處各變數指：

$\mathbf{z}_1 = (f^+ - \mu(\mathbf{x}_1))/\sigma(\mathbf{x}_1)$
$\Phi(\cdot)$ 為標準正態分佈的累積分佈函數
$\phi(\cdot)$ 為標準正態分佈的概率密度函數

首項 $(f^+ - \mu(\mathbf{x}_1)) \Phi(\mathbf{z}_1)$ 負責活用（即進一步優化已有好結果），而右側項 $\sigma(\mathbf{x}_1) \phi(\mathbf{z}_1)$ 則負責探索（即調查不確定區域），形成了一個結構。

最佳化循環
根據上述理論，進行以下循環以確定最佳參數。

模型更新：根據當前數據集，調適代理模型。
決定下一步：透過最大化獲得函數，確定需執行模擬的最佳參數設置。
執行模擬：利用確定的設置，實際啟動高計算成本的CVD模擬器，獲取結果。
添加數據並反覆：更新數據集，返回步驟1並重複過程。

3. 貝葉斯最優實驗設計法 Bayesian Optimal Experimental Design

代理模型經常納入一種更通用的框架，稱為貝葉斯最優實驗設計法（BOED：Bayesian Optimal Experimental Design）。在BOED中，實驗的「價值」可從降低關心潛在參數的不確定性來進行公式化。根據這一原則，透過算法來選定能夠獲得高資訊回報（信息收益）的下一個實驗。

不確定性減少的公式化
具體而言，「降低不確定性」是指什麼？此處將數據生成過程建模為 $p(y | \mathbf{d}, \theta)$。其中：

$y$ : 觀察到的實驗結果
$\mathbf{d}$ : 可控的設計參數（例如：溫度、壓力、混合比等）
$\theta$ : 未知的關心參數（例如：物理常數或最佳產量設置等）

首先，將實驗前對 $\theta$ 的知識定義為事前分佈 $p(\theta)$。執行設計 $\mathbf{d}$ 的實驗，觀察結果 $y$，然後利用貝葉斯定理將 $\theta$ 的信息更新為事後分佈 $p(\theta | \mathbf{d}, y)$。

為了量化實驗的有效性，計算信息利得（IG: Information Gain）。這是衡量從事前分佈到事後分佈的不確定性（在技術術語中稱為熵）減少幅度的指標。IG等同於事後分佈與事前分佈之間的Kullback-Leibler（KL）信息量，表達式如下。

$$
\text{IG}(y, \mathbf{d}) = D_{\text{KL}} [ p(\theta | y, \mathbf{d}) \parallel p(\theta) ] = H[p(\theta)] - H[p(\theta | y, \mathbf{d})]
$$

此處，$H$ 代表香農熵。IG的值越大，意味著觀察結果 $y$ 對 $\theta$ 的知識獲得越多。將IG作為指標，可以對兩個不同實驗 $(y_1, \mathbf{d}_1)$ 與 $(y_2, \mathbf{d}_2)$ 進行信息獲得量的排名。

CVD信息利得.png

圖2：上圖顯示了CVD例中兩個實驗A和B的比較。虛線表示實際的模擬函數，實線表示由高斯過程代理模型得到的事後均值。網狀部分為95%信賴區間，量化了預測的不確定性。過去的觀測值以小紅點顯示，大紅菱形表示最新的樣本。實驗A示範了一種不理想的方法，將新樣本（0.35）設置於現有觀測點（0.25）近旁。在該領域模型的確信度已經高，自然得到的信息利得有限。而實驗B則體現了BOED的方式，選擇了能夠最大化信息利得的點。這可以視為一種更有效的實驗設計，目的是更迅速降低對目標模擬函數的整體不確定性，由此針對事後分散較大的區域進行定位。

目標函數：期望信息利得 (Expected Information Gain; EIG)
當前我們的目標不是為兩個實驗的優劣加以判斷，而是了解下一步應如何設置參數以獲得關於 $\theta$ 的信息。然而，由於在設計 $\mathbf{d}$ 執行實驗之前無法觀察到結果 $y$，因此無法直接對IG進行最佳化。相反，需最大化對所有可能結果 $y$ 的預測概率進行加權後的邊際化（平均化）的期望信息利得（EIG: Expected Information Gain）：

$$
\text{EIG}(\mathbf{d}) = \mathbb{E}{p(y|\mathbf{d})}[ D{\text{KL}} (p(\theta | y, \mathbf{d}) \parallel p(\theta) )]
$$

此處，邊際似然為 $p(y|\mathbf{d}) = \int p(y|\theta, \mathbf{d})p(\theta) d\theta$。隨後，最優實驗設計定義為最大化該期望值的設計 $\mathbf{d}^*$：

$$
\mathbf{d}^* = \operatorname{argmax}_{\mathbf{d}} \text{EIG}(\mathbf{d})
$$

參考文獻：Desi R. Ivanova, Introduction to Bayesian Optimal Experimental Design: Static and adaptive design strategies, https://desirivanova.com/post/boed-intro/

計算上的挑戰及解決方案
迄今為止，EIG的最佳化一直是計算上極具挑戰的問題。因為需計算與 $y$ 相關的期望值及其內部的 $\theta$ 邊緣化。這通常難以解析解決，標準的蒙地卡羅方法進行近似計算則需要巨大的計算成本。然而，近年來的變分推理（Variational Inference）和神經估計器（Neural Estimators）的進展使得BOED的擴展成為可能。這讓數據科學家能夠將這些技術應用於複雜且高維的問題。