莫柳珍,寧曉盼,黃向陽,張平軍,高俊永
(1廣東省科學(xué)院生物工程研究所,廣東廣州510316;2南京海關(guān)動植物與食品檢測中心,江蘇南京210019)
在制糖生產(chǎn)過程中,對工藝指標(biāo)的控制和分析十分重要。糖廠生產(chǎn)流程長,伴隨著各種理化因素變化非常多,工藝指標(biāo)量眾多,并且指標(biāo)之間存在著相當(dāng)復(fù)雜的聯(lián)系。分析和研究制糖過程這些工藝指標(biāo),優(yōu)化生產(chǎn),一直以來是糖業(yè)研究中的一項重要任務(wù)。
隨著信息化和大數(shù)據(jù)對生產(chǎn)制造業(yè)逐漸地滲透,近年來制糖行業(yè)智能化生產(chǎn)調(diào)度系統(tǒng)和數(shù)據(jù)化生產(chǎn)管理系統(tǒng)也在不斷發(fā)展。制糖生產(chǎn)過程中產(chǎn)生大量豐富的數(shù)據(jù)資源存于相應(yīng)的數(shù)據(jù)庫或云端網(wǎng)盤中,相比以往,對制糖生產(chǎn)歷史數(shù)據(jù)的統(tǒng)計和查詢變得十分便捷。但怎樣充分利用和挖掘這些大數(shù)據(jù)資源,又是面臨的一大挑戰(zhàn)。本文在制糖生產(chǎn)報表管理系統(tǒng)數(shù)據(jù)庫中獲取生產(chǎn)過程工藝指標(biāo)數(shù)據(jù),利用SPSS軟件對數(shù)據(jù)進(jìn)行處理,考慮到主成分分析法是利用降維的思想把多個指標(biāo)轉(zhuǎn)化為少數(shù)幾個綜合指標(biāo),因此,采用主成分分析法對制糖工藝指標(biāo)進(jìn)行大量的數(shù)據(jù)分析研究,以期獲得其在制糖數(shù)據(jù)分析方面的應(yīng)用。
主成分分析(Principal Component Analysis,PCA)是一種多變量統(tǒng)計方法,它是最常用的降維方法之一,通過正交變換將一組可能存在相關(guān)性的變量數(shù)據(jù)轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的變量被稱為主成分。
在進(jìn)行數(shù)據(jù)統(tǒng)計分析時,往往會出現(xiàn)變量特別多的情況,而且很多時候這些變量之間還存在著一定的相關(guān)關(guān)系,或者說變量之間存在著信息重疊,如果直接對數(shù)據(jù)進(jìn)行分析,一方面會帶來工作量的無謂加大,另一方面還會出現(xiàn)一些模型應(yīng)用的錯誤,不僅會使模型變得很復(fù)雜,而且會帶來多重共線性等問題。主成分分析提供了解決這些問題的方法,其基本思想是將眾多的初始變量整合成少數(shù)幾個相互無關(guān)的主成分變量,而這些新變量盡可能地包含了初始變量的全部信息,然后利用這些新的變量來代替以前的變量進(jìn)行分析。
主成分分析在社會經(jīng)濟(jì)、企業(yè)管理及環(huán)保、生化、醫(yī)藥等各領(lǐng)域中都有著廣泛的應(yīng)用,常和回歸分析、聚類算法及與其他方法連用進(jìn)行數(shù)據(jù)處理,主要應(yīng)用在綜合評價、特征提取、模式識別、圖像處理等方面?;谥鞒煞址治鲈谏a(chǎn)過程質(zhì)量控制中的應(yīng)用文獻(xiàn)報道有:胡思貴[1]以某制藥廠藥片質(zhì)量的數(shù)據(jù)為實例,對綜合主成分分析質(zhì)量控制圖法與傳統(tǒng)的質(zhì)量控制圖進(jìn)行比較,改進(jìn)了傳統(tǒng)控制過程需要多張控制圖才能對生產(chǎn)過程實施監(jiān)控的不足;李含光[2]利用主成分分析方法對合成氨濃度的 4個指標(biāo)進(jìn)行處理,選取 2個主成分投影到二維平面上,得出了合成氨操作的優(yōu)化操作條件;趙凱[3]應(yīng)用主成分分析法得到降維后的主成分分量規(guī)格區(qū)間、規(guī)格中心向量和目標(biāo)值向量,然后基于主成分分量的聯(lián)合概率密度函數(shù),推導(dǎo)出 3種不合格品率,以期對制造過程的能力進(jìn)行正確的分析和評價;陸寧云[4]利用迭代主成分分析算法,提供了由多元統(tǒng)計控制圖判斷過程是否正常的準(zhǔn)則,實現(xiàn)了實時在線的主成分建模和過程監(jiān)測,仿真例子驗證了這種過程監(jiān)測方法的有效性和可行性。主成分分析法在制糖行業(yè)中的應(yīng)用還很少,通常是在甘蔗品種選育方面[5-6],運用到生產(chǎn)在線控制中則處于初步研究階段。劉桂云[7]對9家糖廠的10項指標(biāo)數(shù)據(jù)進(jìn)行相關(guān)性分析和主成分分析,建立了一種制糖原料和壓榨生產(chǎn)過程的綜合評價方法,得出各糖廠的綜合評分排名,并將得分與產(chǎn)糖率進(jìn)行回歸分析驗證;覃藝丹[8]應(yīng)用主成分分析法,對清糖漿質(zhì)量影響大的清汁pH值、清汁色值、濾清汁pH值、濾清汁色值4個指標(biāo)采集100組數(shù)據(jù),利用 SPSS軟件對數(shù)據(jù)進(jìn)行主成分分析并計算過程能力指數(shù),以判斷澄清工序的過程能力和管理能力。
本示例中制糖工藝指標(biāo)數(shù)據(jù)來源于廣西某糖廠生產(chǎn)報表管理系統(tǒng)數(shù)據(jù)庫。首先利用數(shù)據(jù)庫SQL Server中的查詢功能將需要的指標(biāo)查詢出,導(dǎo)入Excel表格中進(jìn)行整理,然后利用SPSS 22.0統(tǒng)計分析軟件進(jìn)行主成分分析。本示例選擇制糖澄清工段有代表性的 14個工藝指標(biāo),連續(xù) 30組生產(chǎn)班次報表數(shù)據(jù),見表1。
在SPSS 22.0中,由于主成分分析模塊被有機(jī)地嵌入因子分析模塊中,因此,主成分分析必須利用因子分析的結(jié)果才能實現(xiàn)。SPSS 22.0軟件相關(guān)操作步驟:⑴建立數(shù)據(jù)文件;⑵選擇“分析”“降維”“因子分析命令”;⑶選擇進(jìn)行因子分析的變量;⑷打開“描述統(tǒng)計”對話框,勾選“系數(shù)”“顯著性水平”“KMO和Battlet的球型度檢驗”;⑸打開“旋轉(zhuǎn)”對話框,勾選“最大方差法”;⑹打開“因子得分”對話框,勾選“保存為變量”、“顯示因子得分系數(shù)矩陣”;⑺其余設(shè)置采用系統(tǒng)默認(rèn)即可,設(shè)置完畢,單擊“確定”,輸出結(jié)果。
各個工藝指標(biāo)之間的相關(guān)性矩陣見表2。從表2中,可看出各個工藝指標(biāo)之間都有一定的相關(guān)關(guān)系,部分指標(biāo)之間相關(guān)系數(shù)絕對值在 0.5~0.8之間,屬于中程度相關(guān),故適合使用主成分分析。值得注意的是:制糖工藝指標(biāo)之間的關(guān)系模型與數(shù)據(jù)量的選取也有很大的關(guān)系,樣本指標(biāo)之間單一的線性關(guān)系并不適用于解決普遍的實際問題。
KMO(Kaiser-Meyer-Olkin)檢驗是為了看數(shù)據(jù)是否適合進(jìn)行因子分析,表3中,KMO值為0.622,屬于比較適合范圍。Battlet檢驗是為了看數(shù)據(jù)是否來自服從多元正態(tài)分布的總體,表 3中顯著性為0.000,說明數(shù)據(jù)來自正態(tài)分布總體,適合進(jìn)一步分析。
表1 30組生產(chǎn)班次報表的工藝指標(biāo)數(shù)據(jù)
根據(jù)主成分分析法的步驟,輸出分析結(jié)果,各個公因子方差結(jié)果見表 4,主成分分析的相關(guān)系數(shù)矩陣的特征值及各主成分的貢獻(xiàn)率與累積貢獻(xiàn)率結(jié)果見表5,主成分得分系數(shù)矩陣見表6。
由表 4,可得出變量所含原始信息能被提取的公因子所解釋的程度較高,說明分析結(jié)果是有效的。由表5可知,前1~5個主成分累積貢獻(xiàn)率已達(dá)80%以上,且特征值大于1,第1主成分的貢獻(xiàn)率最大,緊隨其后的各個主成分貢獻(xiàn)率急劇下降。根據(jù)優(yōu)選原則,選擇前5個主成分作為綜合指標(biāo)。
由表 6,成分矩陣表明各個成分在各個變量上的載荷,從而可以得出各主成分的表達(dá)式。例如,主成分F1的表達(dá)式為:F1=0.192Z1-0.027Z2+0.108Z3+0.690Z4-0.712Z5+0.551Z6-0.822Z7+0.267Z8+0.55Z9+0.918Z10-0.226Z11-0.694Z12-0.853Z13+0.818Z14。
值得注意的是,在各表達(dá)式中各個變量已經(jīng)不是原始變量,而是標(biāo)準(zhǔn)化變量。從表6得到的5個主成分得分矩陣系數(shù)還可以看出,第1個主成分在混合汁錘度、澄清汁色值、澄清汁錘度、精糖漿 pH值、精糖漿還原糖分、精糖漿色值、精糖漿視純度這 7個指標(biāo)的載荷比較大;第2個主成分在混合汁重力純度、混合汁還原糖分、澄清汁視純度、澄清汁還原糖這4個指標(biāo)的載荷比較大;第3個主成分在精糖漿錘度這個指標(biāo)的載荷比較大;第4個主成分在澄清汁pH值這個指標(biāo)的載荷比較大;第5個主成分在混合汁 pH值這個指標(biāo)的載荷比較大,各個主成分可以看成是反映這些指標(biāo)方面的綜合指標(biāo)。由于主成分分析是一種矩陣變換,所以各個主成分并不一定有實際意義,示例中得到的各個主成分的內(nèi)在含義就不是很明確。
表2 制糖工藝指標(biāo)之間的相關(guān)性矩陣
表3 KMO和Bartlett檢驗
表4 公因子方差
表5 主成分分析的特征值、貢獻(xiàn)率、累積貢獻(xiàn)率
表6 成分得分矩陣系數(shù)
由于2.1在SPSS 22.0軟件操作步驟中選擇了“保存為變量”,因此,在數(shù)據(jù)文件原始數(shù)據(jù)表上新增加 5列變量,見表 7。F1、F2、F3、F4、F5的值為各組數(shù)據(jù)主成分值,同時,以5個主成分的貢獻(xiàn)率為權(quán)重構(gòu)建主成分綜合評價模型:F=0.36844F1+0.17688F2+0.12098F3+0.08181F4+0.07316F5。
計算出各班組數(shù)據(jù)的綜合得分及其排名,結(jié)果見表7。以班組1的數(shù)據(jù)為例,計算其綜合得分為:F=-0.36844×3.27242-0.17688×0.15663-0.12098×0.24 363+0.08181×1.77523-0.07316×0.99613=-1.1905
通過綜合得分及其排名,可對澄清工段連續(xù)30個班次的工藝指標(biāo)情況進(jìn)行對比評價,第21個班次的得分排在第1名,而第1個班次的得分排在第30名;返回看原始數(shù)據(jù),第21個班次的各個指標(biāo)總體情況較優(yōu)。進(jìn)一步可將這30組班次生產(chǎn)工藝指標(biāo)的主成分分析得分按照班次進(jìn)行統(tǒng)計,對照排班順序表劃分成 3個班(甲乙丙班)的綜合得分,也就為 3個班的績效評分排名提供一定的客觀數(shù)據(jù)支持。
表7 30組生產(chǎn)班次工藝指標(biāo)主成分、綜合得分及排名
主成分分析對指標(biāo)變量進(jìn)行綜合評分,是一種廣泛采用的客觀賦權(quán)方法。在對制糖澄清工段工藝效果進(jìn)行綜合評價時,選取了14個工藝指標(biāo)通過主成分分析轉(zhuǎn)化為5個主成分的貢獻(xiàn)率權(quán)重,避免了人為因素,因而評價結(jié)果比較客觀。
在面對制糖過程龐大的生產(chǎn)數(shù)據(jù)統(tǒng)計分析時,采用主成分分析法進(jìn)行降維,以少數(shù)的綜合變量取代原有多維變量,能夠簡化數(shù)據(jù)結(jié)構(gòu)。示例中的主成分分析,澄清工段還可以加入更多的工藝指標(biāo)量進(jìn)行分析,如濾清汁、粗糖漿等物性指標(biāo)。還可以將制糖全過程生產(chǎn)數(shù)據(jù)進(jìn)行基于層次分析的主成分分析,可有效解決主成分分析法指標(biāo)構(gòu)建的缺位問題和層次分析法指標(biāo)權(quán)重的主觀性問題[9]。
隨著 SPSS統(tǒng)計軟件及其它數(shù)據(jù)挖掘工具的普及,應(yīng)用主成分分析法到制糖生產(chǎn)數(shù)據(jù)處理中越發(fā)快捷和方便。主成分分析及其結(jié)合控制圖、回歸分析、聚類分析等數(shù)據(jù)處理方式,將在制糖數(shù)據(jù)信息處理、生產(chǎn)過程控制與預(yù)測、工藝優(yōu)化等方面的研究和應(yīng)用發(fā)揮重要作用,為制糖生產(chǎn)過程評價提供數(shù)據(jù)支持。