執筆:段(倫敦帝國學院・Nospare)、酒井(筑波大學・Nospare)、小林(明治大學・Nospare)
本文針對從事製造業或即將從事該行業的數據科學家,介紹製造業中的統計與機器學習技術及具體應用案例,特別著眼於減少製造業研究與開發所需的時間與費用。具體內容包括:
第一節將整理製造業各個場景中應用統計與機器學習的商業價值,讓讀者掌握全貌與動機。對於有興趣技術內容的讀者,可以直接從第二章的「代理模型」開始閱讀。第三章介紹了包含代理模型的實驗框架——「貝葉斯最優實驗設計法(BOED)」。最後,將介紹近年備受關注的將物理法則納入統計與機器學習模型的「物理知識驅動的機器學習(PIML)」。
資本效率改善
製造業是對機器、設備及基礎設施等固定資本依賴度高的行業,商業觀點下的主要目標是降低運營成本,同時最大化重型設備的價值。
研究與開發所需時間與費用的減少
風險減少
數據之作為資產:隨著機器學習的應用,數據質量不斷提高,業務效率隨之提升。雖然競爭對手可以採用相同的機器或機器學習模型,但無法獲得歷史流程數據或優化過的學習已知模型。這些智慧財產構成了對競爭對手的巨大進入壁壘。
如前所述,製造業研究開發中數據點的獲取通常涉及實際製作原型進行實驗,或根據大規模物理模型進行模擬,這通常會耗費大量成本和時間。代理模型顧名思義,旨在透過機器學習對輸入與輸出之間複雜的非線性關係進行逼近,且能夠快速預測設計空間內在任意條件下的輸出,這樣可以減少實驗與計算所需的時間和費用。而透過代理模型的運用,還能檢測那些物理模擬可能忽略的偶發性故障或異常,已經有相關案例報導。
(新)樣本的獲取依然需要實際執行實驗或模擬。若能在更多條件下獲取數據,則能更詳細地捕捉到關心的物理現象,但時間與費用的約束需求確定適合的均勻樣本采集方法來充分代表有限的樣本大小。標準方法如拉丁超立方體抽樣等,也可應用適應性方法,如接下來會說明的貝葉斯最優實驗設計法。在較複雜的問題中,透過深度學習模型生成設計也是一種可能。
代理模型的輸入與輸出變數需依據問題選擇適當的項目。輸出變數通常是某種性能指標(例如:汽車與行人碰撞時行人的頭部損傷程度),而輸入變數則為影響該指標的各種條件(例如:引擎蓋形狀、行駛速度等)。
代理模型本身則將依據問題應用高斯過程回歸或深度神經網絡等機器學習標準方法。最近的發展也開始採用如接下來會提到的明確納入物理法則的PIML。
具體案例(半導體晶片製造)
為了加深對代理模型的理解,我們考慮半導體製造的例子。需要注意的是,此例僅為提升對代理模型理解而設計的虛構且簡易的例子,並未完全遵循實際製造過程。
半導體晶片是通過在稱為晶圓的矽圓盤上,重疊數十億個極小的開關或電路多層製作而成的。為了製造這些微細電路,生產過程中主要需重複以下步驟數十次:
這裡我們著重於第二步的成膜過程(★)。成膜過程使用的技術為化學氣相沉積法(Chemical Vapor Deposition; CVD)。在CVD過程中,晶圓置於密閉真空裝置內,並流入特殊氣體。隨著裝置的加熱,熱能使氣體發生化學反應,於晶圓表面形成二氧化矽等薄固體膜。這層膜最終作為隔離層,能夠在電路中傳導或阻斷電流。
在CVD過程中,重要的是確保從晶圓中心到邊緣的膜厚度完全均勻。如果由於氣體流動或溫度的微小偏差導致外圍比中心厚,則完成的晶片的電氣處理速度及性能將產生波動。所有不滿足標準的晶片都將被報廢,這將導致良率降低,進而帶來企業的經濟損失。
為了預測膜的均勻性,工程師們執行流體力學、熱傳導及化學反應速率模型的物理模擬。一次執行此模擬可能需要12小時以上的運算,因此無法隨意選擇實驗設置。於是開始構建以下的代理模型。
模型的輸入變數
將計算成本高昂的物理模擬器定義為函數 $f(\mathbf{x})$。且定義輸入向量為 $\mathbf{x}\in\mathcal{X}\subset\mathbb{R}^d$。此次的反應爐中,假設 $\mathbf{x}$ 由以下三個控制參數($d=3$)組成:
輸出:不均勻性指標($y$): 模擬器將輸出膜厚標準偏差與平均膜厚的比值。
目標: 最小化函數 $f(\mathbf{x})$(使膜厚的波動接近於零)。

圖1:上圖就使用代理模型的一次實驗循環進行了說明,揭示了代理模型及其決策邏輯之間的關係。上段顯示了真實模擬器(黑色虛線)和利用高斯過程的代理模型預測值(實線)之間的比較。紅點為用於GP學習的過去觀測值,網狀部分則視覺化模型預測的不確定性(95%信賴區間)。下段面板顯示使用新實驗參數進行實驗的潛在價值的量化「期望改善量」獲得函數。垂直虛線指向下一次需測試的實驗參數值,該值對應於獲得函數的最大值。這一選擇策略在於平衡「活用」:即瞄準CVD不均勻性指標可能最小化的區域,與「探索」:即對不確定性高的區域進行取樣以提高模型整體精度。
其常採用的代理模型是以貝葉斯統計學著稱的高斯過程(Gaussian Process; GP)。高斯過程不僅靈活地逼近複雜未知的模擬函數 $f(\mathbf{x})$,同時也能量化預測的不確定性(信心指數;上圖上方面板中影子部分)。此外,作為數學優勢,後述的期望改善量(Expected Improvement; EI;上圖下方面板)的解析解能夠獲得,因此在貝葉斯最佳化中極為便利。
高斯過程補充:通常的線性回歸分析針對數據估算最適合的單一直線,而高斯過程則將可能符合數據的無數曲線束(函數分佈)通通以隨機方式進行處理。在尚無數據的情況下(事前分佈),線條可呈現各種形狀,因此不確定性最大。然而,當執行模擬並獲得觀測數據後,那些觀測點將使「線條束」受到約束(更新為事後分佈)。最終的結果則表 現了:在存在數據的地區預測的確信度提高,而在數據缺乏的空白區,線條則發生散佈(=不確定性高)。
數學定義與組成元素
具體而言,對於複雜且未知的模擬函數 $f(\mathbf{x})$,賦予以下的高斯過程的事前分佈:
$$
f(\mathbf{x}) \sim \mathcal{GP}(m(\mathbf{x}), k(\mathbf{x}, \mathbf{x}'))
$$
決定該模型形狀的有以下兩個要素。
假設物理模擬器執行 $n$ 次。由此獲得數據集 $\mathcal{D} = {X, \mathbf{y}}$。此處,$X$ 為 $n \times 3$ 的設計矩陣,$\mathbf{y}$ 為觀測到的不均勻性指標值的 $n \times 1$ 向量。基於獲得的數據及貝葉斯定理,亦可解析地導出尚未嘗試的參數設置 $\mathbf{x}_1$ 的事後預測分佈:
$$
f(\mathbf{x}_1) | \mathcal{D}, \mathbf{x}_1 \sim \text{Normal}(\mu(\mathbf{x}_1), \sigma^2(\mathbf{x}_1))
$$
此處,$\mu(\mathbf{x}_1)$ 為預測點 $\mathbf{x}_1$ 的預測值的平均值,$\sigma^2(\mathbf{x}_1)$ 則為方差。
建構代理模型本身並非最終目標。最終的目標是,要在最大化預測時降低高成本的額外模擬執行次數後,找到最優設置 $\hat{\mathbf{x}} = \text{argmin } f(\mathbf{x})$。
這裡,利用代理模型的事後分佈來定義獲得函數 $\alpha(\mathbf{x})$。此函數平衡兩種觀點的最佳狀態:
期望改善量(Expected Improvement; EI)
在工程領域的最佳化中,最常見的獲得函數為期望改善量(EI)。令目前觀測到的最佳(最小)不均勻性指標為 $f^+$。
評估新點 $\mathbf{x}_*$ 時的改善量定義為 $I(\mathbf{x}_1) = \max(0, f^+ - f(\mathbf{x}_1))$。使用高斯過程時,能求出該改善量的解析期望值。
$$
\text{EI}(\mathbf{x}_1) = \mathbb{E}[I(\mathbf{x}_1) \mid \mathcal{D}] = (f^+ - \mu(\mathbf{x}_1)) \Phi(\mathbf{z}_1) + \sigma(\mathbf{x}_1) \phi(\mathbf{z}_1)
$$
此處各變數指:
首項 $(f^+ - \mu(\mathbf{x}_1)) \Phi(\mathbf{z}_1)$ 負責活用(即進一步優化已有好結果),而右側項 $\sigma(\mathbf{x}_1) \phi(\mathbf{z}_1)$ 則負責探索(即調查不確定區域),形成了一個結構。
最佳化循環
根據上述理論,進行以下循環以確定最佳參數。
代理模型經常納入一種更通用的框架,稱為貝葉斯最優實驗設計法(BOED:Bayesian Optimal Experimental Design)。在BOED中,實驗的「價值」可從降低關心潛在參數的不確定性來進行公式化。根據這一原則,透過算法來選定能夠獲得高資訊回報(信息收益)的下一個實驗。
不確定性減少的公式化
具體而言,「降低不確定性」是指什麼?此處將數據生成過程建模為 $p(y | \mathbf{d}, \theta)$。其中:
首先,將實驗前對 $\theta$ 的知識定義為事前分佈 $p(\theta)$。執行設計 $\mathbf{d}$ 的實驗,觀察結果 $y$,然後利用貝葉斯定理將 $\theta$ 的信息更新為事後分佈 $p(\theta | \mathbf{d}, y)$。
為了量化實驗的有效性,計算信息利得(IG: Information Gain)。這是衡量從事前分佈到事後分佈的不確定性(在技術術語中稱為熵)減少幅度的指標。IG等同於事後分佈與事前分佈之間的Kullback-Leibler(KL)信息量,表達式如下。
$$
\text{IG}(y, \mathbf{d}) = D_{\text{KL}} [ p(\theta | y, \mathbf{d}) \parallel p(\theta) ] = H[p(\theta)] - H[p(\theta | y, \mathbf{d})]
$$
此處,$H$ 代表香農熵。IG的值越大,意味著觀察結果 $y$ 對 $\theta$ 的知識獲得越多。將IG作為指標,可以對兩個不同實驗 $(y_1, \mathbf{d}_1)$ 與 $(y_2, \mathbf{d}_2)$ 進行信息獲得量的排名。

圖2:上圖顯示了CVD例中兩個實驗A和B的比較。虛線表示實際的模擬函數,實線表示由高斯過程代理模型得到的事後均值。網狀部分為95%信賴區間,量化了預測的不確定性。過去的觀測值以小紅點顯示,大紅菱形表示最新的樣本。實驗A示範了一種不理想的方法,將新樣本(0.35)設置於現有觀測點(0.25)近旁。在該領域模型的確信度已經高,自然得到的信息利得有限。而實驗B則體現了BOED的方式,選擇了能夠最大化信息利得的點。這可以視為一種更有效的實驗設計,目的是更迅速降低對目標模擬函數的整體不確定性,由此針對事後分散較大的區域進行定位。
目標函數:期望信息利得 (Expected Information Gain; EIG)
當前我們的目標不是為兩個實驗的優劣加以判斷,而是了解下一步應如何設置參數以獲得關於 $\theta$ 的信息。然而,由於在設計 $\mathbf{d}$ 執行實驗之前無法觀察到結果 $y$,因此無法直接對IG進行最佳化。相反,需最大化對所有可能結果 $y$ 的預測概率進行加權後的邊際化(平均化)的期望信息利得(EIG: Expected Information Gain):
$$
\text{EIG}(\mathbf{d}) = \mathbb{E}{p(y|\mathbf{d})}[ D{\text{KL}} (p(\theta | y, \mathbf{d}) \parallel p(\theta) )]
$$
此處,邊際似然為 $p(y|\mathbf{d}) = \int p(y|\theta, \mathbf{d})p(\theta) d\theta$。隨後,最優實驗設計定義為最大化該期望值的設計 $\mathbf{d}^*$:
$$
\mathbf{d}^* = \operatorname{argmax}_{\mathbf{d}} \text{EIG}(\mathbf{d})
$$
參考文獻:Desi R. Ivanova, Introduction to Bayesian Optimal Experimental Design: Static and adaptive design strategies, https://desirivanova.com/post/boed-intro/
計算上的挑戰及解決方案
迄今為止,EIG的最佳化一直是計算上極具挑戰的問題。因為需計算與 $y$ 相關的期望值及其內部的 $\theta$ 邊緣化。這通常難以解析解決,標準的蒙地卡羅方法進行近似計算則需要巨大的計算成本。然而,近年來的變分推理(Variational Inference)和神經估計器(Neural Estimators)的進展使得BOED的擴展成為可能。這讓數據科學家能夠將這些技術應用於複雜且高維的問題。
適應印刷材料的3D印表機設定最佳化
背景:3D印表機的誕生極大加速了製造領域的原型建立。然而,為了能適應多樣化材料(線材)的印刷設定最佳化,仍然是個主要瓶頸。
為了確保印刷品質,必須根據素材的物理特性,正確調整噴嘴的運動速度、擠出延遲及擠出率等多個參數。這些參數與材質的黏度或熱導率等物理特性緊密相關,但其物理模型極為複雜,僅用數學計算導出最佳解極具挑戰。
挑戰:因此,以往只能依賴人工進行「嘗試與錯誤」。手動變更設置、印刷、評估、再調整的過程,需嘗試數千至數萬次,耗時可能超過一週,導致巨大的時間與人力成本。
解決方案:為解決此挑戰,Deneault 等(2021)提出了一套自動化的參數調整過程,利用貝葉斯最優實驗設計法。該系統由以下循環組成:
通過這一循環,系統能夠在每次嘗試中學習未知的參數空間,並有效地探索最優解。
結果:實證實驗結果顯示,該方法極大提高了效率。原本需要數千至數萬次嘗試/超過一週的實驗,現在可在100次內的嘗試/約3小時內幾乎達到最佳的參數設定。
參考文獻:Deneault et al. (2021), Toward autonomous additive manufacturing: Bayesian optimization
原文出處:https://qiita.com/Nospare_Inc/items/183a0855d9fd19ae5da9