李秀玉,張 成,逄玉俊
(沈陽化工大學(xué) 信息工程學(xué)院,遼寧 沈陽 110142)
在半導(dǎo)體工業(yè)中,過程變量包含了工業(yè)過程的運(yùn)轉(zhuǎn)信息以及產(chǎn)品的生產(chǎn)狀況,由于產(chǎn)品的生產(chǎn)工況不同,導(dǎo)致在生產(chǎn)過程中各變量呈現(xiàn)出不同的相互關(guān)系.在間歇過程中,通過比較不同批次的原料數(shù)據(jù)、過程變量數(shù)據(jù)等信息對產(chǎn)品進(jìn)行分類,以尋求工業(yè)過程的最佳工作條件,對提高產(chǎn)品質(zhì)量和效率具有重要的意義.
主元分析方法PCA 在工業(yè)過程中已經(jīng)得到了廣泛的應(yīng)用.直接對工業(yè)采集到的數(shù)據(jù)進(jìn)行操作,計(jì)算量非常大,降低了故障檢測系統(tǒng)的實(shí)時(shí)性.為了解決這一問題,利用PCA 方法提取原始數(shù)據(jù)中的主要信息,將高維數(shù)據(jù)降為低維數(shù)據(jù)的同時(shí),保存了原有數(shù)據(jù)的主要信息,從而提高故障檢測系統(tǒng)的實(shí)時(shí)性[1].
利用PCA 數(shù)據(jù)驅(qū)動(dòng)方法對分析間歇過程多批次數(shù)據(jù)的相似度及數(shù)據(jù)分類具有重要的意義.1998 年Jaeckle 和MacGregor[2]利用主元回歸思想提出了基于相同特征參數(shù)的窗口,利用窗口對原始數(shù)據(jù)分類;Lane,Martin,Kooijmans,et al[3]利用PCA 提出了一種能夠?qū)崟r(shí)監(jiān)測產(chǎn)品等級(jí)的思想;Krzanowski[4]利用PCA 對原始數(shù)據(jù)進(jìn)行建模,并衡量每個(gè)PCA 模型負(fù)載矩陣之間角度的大小;Johannesmeyer et al[5]利用相應(yīng)的特征值加權(quán)負(fù)載矩陣衡量不同批次的相似度;2008 年Gunther,Baclaski,et al[6]將PCA 相似因子應(yīng)用到生物間歇過程中,利用交叉驗(yàn)證的方法確定建立PCA 模型時(shí)所需主元的個(gè)數(shù),通過比較不同批次數(shù)據(jù)的相似度,對不同工況下采集到的數(shù)據(jù)進(jìn)行分析.本文將相似因子方法應(yīng)用到半導(dǎo)體間歇過程數(shù)據(jù)中,在保留原始數(shù)據(jù)主要方差信息情況下,對多批次數(shù)據(jù)進(jìn)行相似度分析,以達(dá)到對半導(dǎo)體工業(yè)過程不同工況數(shù)據(jù)相似度分類的目的.
PCA 方法是一種將變量相關(guān)的原始數(shù)據(jù)轉(zhuǎn)化為線性無關(guān)的主元變量數(shù)據(jù)的方法,揭示了數(shù)據(jù)變量的主要方差信息.降維后主元個(gè)數(shù)A≤J,J 代表過程變量,第一主元包含原始數(shù)據(jù)的最大方差信息.
首先對半導(dǎo)體間歇過程數(shù)據(jù)XI×K×J(I 代表數(shù)據(jù)批次,K 代表時(shí)間,J 代表過程變量)進(jìn)行標(biāo)準(zhǔn)化處理,由于產(chǎn)生不同批次數(shù)據(jù)的工業(yè)過程工況不同,為了保留各批次數(shù)據(jù)之間的差異性[7],采用批次間的標(biāo)準(zhǔn)化方法,如(1)式所示.
其中ˉxkj為第k 批次第j 個(gè)變量的均值,skj為第k批次第j 個(gè)變量的標(biāo)準(zhǔn)差.
式(2)為標(biāo)準(zhǔn)化后的第i 批數(shù)據(jù).
PCA 方法的具體公式:
其中Pi是i 批數(shù)據(jù)標(biāo)準(zhǔn)化后協(xié)方差矩陣的特征矩陣,Ti∈RK×A為i 批數(shù)據(jù)標(biāo)準(zhǔn)化后協(xié)方差矩陣的得分矩陣,Ei為第i 批數(shù)據(jù)的殘差矩陣.
由于不同工況的間歇過程數(shù)據(jù)變量之間的相互關(guān)系不同,導(dǎo)致不同批次數(shù)據(jù)負(fù)載向量之間出現(xiàn)角度偏離.利用PCA 相似因子[6]來衡量兩個(gè)主元模型相應(yīng)負(fù)載向量之間的角度大小,PCA相似因子定義為:
其中θa1a2表示第i1批數(shù)據(jù)負(fù)載矩陣的第a1個(gè)負(fù)載向量與第i2批數(shù)據(jù)負(fù)載矩陣的第a2個(gè)負(fù)載向量之間的角度.
公式(4)可以寫成:
由式(5)可得:當(dāng)i1=i2時(shí),SPCA=1,當(dāng)兩個(gè)批次的負(fù)載矩陣正交時(shí)為0,所以取值范圍為[0 1].
在半導(dǎo)體間歇過程原始數(shù)據(jù)的PCA 模型中,不同主元包含原始數(shù)據(jù)的方差信息各不相同,為了體現(xiàn)各主元包含不同的方差信息量,SPCA只是利用負(fù)載向量之間的夾角大小作為批次數(shù)據(jù)的相似度指標(biāo),并沒有考慮方差信息的差異,所以,在進(jìn)行實(shí)驗(yàn)仿真時(shí)不能得到理想的分類效果,如圖3、4 所示.對PCA 模型的負(fù)載向量利用相應(yīng)的特征值進(jìn)行加權(quán),利用加權(quán)的PCA 相似因子來衡量相似度大小.特征值存在的關(guān)系為:
λ1>λ2>…>λA,其中λ 為協(xié)方差矩陣的特征值.
加權(quán)的PCA 相似因子[6]為:
文中利用半導(dǎo)體工業(yè)實(shí)例進(jìn)行不同批次數(shù)據(jù)的相似度比較.在半導(dǎo)體工業(yè)過程中采集到來自3 類不同實(shí)驗(yàn)操作的107 批次數(shù)據(jù)[8](1~34批次為第一類實(shí)驗(yàn)數(shù)據(jù),35~70 批次為第二類實(shí)驗(yàn)數(shù)據(jù),71~107 批次為第三類實(shí)驗(yàn)數(shù)據(jù)),三類實(shí)驗(yàn)是在三種不同工況下進(jìn)行的.選取其中兩個(gè)變量Endpt A 與TCP Load 分析數(shù)據(jù)的軌跡,如圖1 所示.在圖1 中,變量Endpt A 的數(shù)據(jù)軌跡呈現(xiàn)三種不同分布,可知107 批次的數(shù)據(jù)來自三種不同工況的實(shí)驗(yàn)過程.
對于主元個(gè)數(shù)的選取,主要的方法有[9]:累計(jì)方差貢獻(xiàn)率、可預(yù)測殘差平方和、數(shù)據(jù)信噪比等.文獻(xiàn)[6]利用交叉驗(yàn)證的方法獲得建模的主元個(gè)數(shù).本文為了保留原始數(shù)據(jù)的大量信息,采用累積貢獻(xiàn)率法確定主元個(gè)數(shù),分別以第一類實(shí)驗(yàn)的第21 批,第二類實(shí)驗(yàn)的第56 批,第三類實(shí)驗(yàn)的第78 批為例說明主元個(gè)數(shù)的確定方法.
圖1 變量Endpt A 與TCP Load 的軌跡圖Fig.1 The trajectory of Endpt A and TCP Load
圖2 分別為第21、56、78 批數(shù)據(jù)的各個(gè)主元累計(jì)方差貢獻(xiàn)率,為保留原始數(shù)據(jù)70 %以上信息以及比較SPCA與的差別,主元個(gè)數(shù)分別取7 和10.
圖2 主元累計(jì)方差貢獻(xiàn)率Fig.2 The cumulative percent variance of principle components
為了說明方法的有效性,實(shí)驗(yàn)分別取三類實(shí)驗(yàn)的3 個(gè)批次作為參考批次,即第21、56、78 批次,得出其余批次與參考批次的相似度.
取主元個(gè)數(shù)為7,進(jìn)行實(shí)驗(yàn)仿真,得出結(jié)果如圖3 所示.
圖3 主元個(gè)數(shù)A=7 時(shí)相似度比較結(jié)果Fig.3 Similarity results when principle components’number A=7
在圖3 中,圖a、b、c 分別為以第21、56、78批為參考批次結(jié)果.利用方法可以將原始數(shù)據(jù)的相似度分成三個(gè)不同區(qū)域,圖a 中,與第21批次數(shù)據(jù)在同一工況下采集到的數(shù)據(jù)(第1-34批)相似度接近1 且最大,在其它兩個(gè)工況下采集到的數(shù)據(jù)(第35-107 批)所計(jì)算出的SλPCA指標(biāo)相比較小,呈現(xiàn)出兩個(gè)不同的范圍;在圖b、c 中分別以第二、三類工況下采集的數(shù)據(jù)為參考批次,可以得到與圖a 相吻合的分類效果.這與通過分析式(6)及前面變量曲線軌跡相一致,具有理想的分類效果.
保留原始數(shù)據(jù)85 %以上的方差信息量時(shí)取主元個(gè)數(shù)A=10,得到實(shí)驗(yàn)仿真結(jié)果如圖4所示.
圖4 主元個(gè)數(shù)A=10 時(shí)相似度比較結(jié)果Fig.4 Similarity results when principal components’number A=10
在圖4 中,圖a、b、c 分別為以第21、56、78 批為參考批次結(jié)果.分類結(jié)果與當(dāng)主元個(gè)數(shù)為7 時(shí)基本一致,利用均能得到理想的分類效果.
通過仿真結(jié)果,采用批次間的標(biāo)準(zhǔn)化方法,在保留原數(shù)據(jù)主要信息的條件下,利用能夠?qū)崿F(xiàn)對半導(dǎo)體工業(yè)間歇過程不同工況下多批次數(shù)據(jù)的分類.
以半導(dǎo)體工業(yè)過程為對象,基于傳統(tǒng)的PCA 方法建立模型,利用協(xié)方差矩陣特征向量之間的角度衡量原始數(shù)據(jù)各批次的相似度,并將其運(yùn)用到半導(dǎo)體間歇工業(yè)過程數(shù)據(jù)中,對來自三類不同實(shí)驗(yàn)的多批次數(shù)據(jù)進(jìn)行相似度比較,實(shí)驗(yàn)結(jié)果表明:利用方法對半導(dǎo)體間歇過程不同工況數(shù)據(jù)的分類具有理想效果,對間歇過程數(shù)據(jù)的分類和故障檢測具有重要意義.
[1]He Q Peter,Wang Jin.Statistics Pattern Analysis:A New Process Monitoring Framework and its Application to Semiconductor Batch Processes[J].AIChE Journal,2011,57(1):107-121.
[2]Jaeckle C M,MacGregor J F.Product Design Through Multivariate Statistical Analysis of Pdata[J].AIChE Journal,1998,44(5):1105-1118.
[3]Lane S,Martin E B,Kooijmans R,et al.Performance Monitoring of Amulti-product Semi-batch Process[J].Journal of Process Control,2001,11(1):1-11.
[4]Krzanowski W J.Between-groups Comparisons of Principal Components[J].Journal of the American Statistical Association,1979,74(367):703-707.
[5]Johannesmeyer M C,Singhal A,Seborg D E.Pattern Matching in Historical Data[J].AIChE Journal,2002,48(9):2022-2038.
[6]Gunther J C,Baclaski J,Seborg D E,et al.Pattern matching in Batch Bioprocesses—Comparisons Across Multiple Products and Operating Conditions[J].Computers and Chemical Engineering,2009,33(1):88-96.
[7]Wold S,Kettaneh N,F(xiàn)ridén H,et al.Modelling and Diagnostics of Batch Processes and Analogous Kinetic Experiments[J].Chemometrics and Intelligent Laboratory Systems,1998,44(1/2):331-340.
[8]Wise Barry M,Gallagher Neal B.A Comparison of Principle Component Analysis,Multiway Principle Component Analysis,Trilinear Decomposition and Parallel Factor Analysis for Fault Detection in a Semiconductor Etch Process[J].Journal of Chemometrics,1999,13(3/4):379-396.
[9]周東華,李鋼,李元.數(shù)據(jù)過程驅(qū)動(dòng)的工業(yè)過程故障診斷技術(shù)[M].北京:科學(xué)出版社,2011:59-64.