馬澤亮,國婷婷,殷廷家,王志強,楊方旭,李彩虹,李釗,袁文浩
(山東理工大學 計算機科學與技術學院,山東 淄博,255049)
隨著食品質量事件頻發(fā),食品安全問題已成為全球性關注的熱點[1]。中國白酒具有悠久的歷史,是世界上著名的蒸餾酒之一[2],在人們生活中占據(jù)重要的地位,而近年來市場上各種白酒品質參差不齊,其中不乏各種勾兌而成的摻假白酒。摻假白酒的制造及銷售嚴重損害了消費者身體健康和財產(chǎn)安全。因此,構建一種快捷、直接、可靠地辨別摻假白酒的方法具有重大的社會意義。
感官品質分析是白酒品質分析常用的方法,但此類方法易受品評者的疲勞效應以及主觀因素的影響,具有重復性差,主觀性強等缺點,使得分析結果具有較大的誤差。傳統(tǒng)的分析檢測方法有紫外可見吸收光譜法(UV-VIS)[3]、傅里葉近紅外光譜法(NIR)[4]、核磁共振光譜 法(NMR)[5]; 高效液相 色譜法(HPLC)[6]、氣相色譜 -質譜 聯(lián)用法(GCMS)[7-8]等。雖然,UV-VIS等光譜法的檢測儀器具有操作簡單、檢測迅速、成本低廉等優(yōu)點,且近年來在酒的應用分析和質量控制有了很大的發(fā)展[9-10],但該儀器檢測靈敏度低,缺乏準確的定性、定量檢測能力。HPLC等色譜法由于其分離能力強、選擇性好已成為應用廣泛的常規(guī)檢測分析方法,但耗時長、操作繁瑣、且容易對樣本造成破壞,無法滿足對實際樣本的快速準確分析的需求。
電子鼻是模仿人類嗅覺感覺機理的一種新型現(xiàn)代化智能分析檢測儀器,近年來在化學物質和感官特性的快速測定中起著不可或缺的作用[11],利用傳感器陣列獲得樣本“指紋信息”,經(jīng)過信號處理以及模式識別后,最終得到各種溶液嗅覺的整體特征信息,實現(xiàn)對復雜液體的定性與定量檢測,具有操作穩(wěn)定可靠、運行簡單、成本低廉、檢測快速等特點。目前,電子鼻已開始應用在環(huán)境監(jiān)測[12-13]、中藥鑒定[14-16]、食品分析[17-19]等眾多領域。近年來,眾多國內外專家、學者在酒的風味和品質檢測方面已成功開展了大量科學研究,如徐晚秀等[20]利用電子鼻對5種年份的清香型白酒酒齡進行了在線實時檢測;王輝等[21]利用聲表面波zNose4200型電子鼻實現(xiàn)了對3種香型6種白酒快速識別與分類;LUIS GIL-SHCHEZ等[22]利用電子鼻和電子舌對白酒和紅酒的氧化過程進行了分析研究。眾多研究表明,電子鼻具有對氣體中特異性理化物質進行鑒別的能力。但利用電子鼻檢測系統(tǒng)對不同純度的摻假白酒進行定性和定量檢測分析,國內外尚未有相關報道。
本文以摻假白酒為檢測對象,以虛擬儀器為核心構建了一套電子鼻檢測系統(tǒng),實現(xiàn)了對不同純度的摻假白酒定性和定量鑒別分析。針對電子鼻響應信號的特點,采用DWT方法對電子鼻原始信號進行預處理,隨后利用PCA方法對不同純度的摻假白酒進行定性辨別,同時采用ABC-LSSVM方法對白酒純度進行定量預測。旨在為摻假白酒檢測評價提供有力的技術支持。
實驗所用茅臺鎮(zhèn)原漿酒均來自淄博市大潤發(fā)超市,在實驗前密封保存,防止氧化變質。
自主研發(fā)的電子鼻系統(tǒng)主要由基于LabVIEW的上位機系統(tǒng)、數(shù)據(jù)采集裝置、信號調理電路以及傳感器陣列構成,如圖1所示。
本文根據(jù)文獻[23]中白酒摻假樣品的制備方式,向茅臺鎮(zhèn)醬香酒里混摻工業(yè)酒精和飲用水,分別配制體積分數(shù)為100%、90%、80%、70%、60%及50%的實驗樣品各400 mL,平均分成20份,利用酒精計控制摻假白酒的酒精度和真酒酒精度保持一致。
打開電子鼻檢測系統(tǒng),設定在經(jīng)過預實驗確定的參數(shù):樣本氣體進樣速率500 mL/min,載氣速率500 mL/min,檢測前對電子鼻檢測系統(tǒng)清洗時間為80 s。每次取20 mL的摻假白酒樣品,置于300 mL的錐形瓶中并利用瓶塞密封,檢測時間為80 s。
1.4.1 小波信號預處理
電子鼻采集回來的數(shù)據(jù)具有數(shù)據(jù)量大、高維、動態(tài)、稀疏性以及含噪聲等特征,若直接進行模式識別分析,不僅加重系統(tǒng)工作量,還會降低識別率,因此必須對原始數(shù)據(jù)預處理,以降低冗余信息并提取關鍵信息。通常,對電子鼻信號進行預處理大多采用面積值、穩(wěn)定值和平均微分值[24]等提取法,但此類方法獲取信息量小,不能挖掘及利用全部信息,影響系統(tǒng)的識別效果。小波變換是為分析非靜態(tài)信號而開發(fā)的,具有自適應、多尺度及“數(shù)學顯微”等特點,可以有效地減小數(shù)據(jù)冗余和降噪,處理后的數(shù)據(jù)可以保持原始數(shù)據(jù)波形特征,便于后期模式識別分析。離散小波變換是小波變換在尺度及位移上離散化。
離散小波變換過程中,分解尺度和小波基函數(shù)的選擇都會影響重構信號的失真度以及信號壓縮比,而以往主要憑個人經(jīng)驗對這2個參數(shù)選取,存在主觀性強等問題,因此利用波形相似系數(shù)f對DWT處理結果進行評價,公式如下:
(1)
式中:p為原始數(shù)據(jù)的數(shù)據(jù)點;q是DWT壓縮重構后的數(shù)據(jù)點;cov(p,q)代表2組信號的協(xié)方差。波形相似系數(shù)f越大,則說明原始信號和壓縮后信號接近程度越大。
1.4.2 基于PCA的定性辨別分析
PCA是一種多元統(tǒng)計分析方法,已廣泛應用于電子鼻檢測領域。PCA能夠將相關變量轉化成可以解釋原始信息的多個無關變量的組合,最終在保持不丟失大部分原始數(shù)據(jù)的狀況下,進行數(shù)據(jù)特征提取或分類識別。
1.4.3 基于ABC-LSSVM的定量預測模型
1.4.3.1 最小二乘支持向量機
最小二乘支持向量機(LSSVM)是基于SVM結構風險最小化基礎上改進的一種新型的模式識別方法,在白酒檢測領域已得到成功應用[25]。其基本原理為利用一種非線性映射,將原始數(shù)據(jù)映射到高維特征空間中,并找出一個最優(yōu)超平面,建立輸入及輸出之間非線性關系模型。本文的LSSVM輸入量是經(jīng)過小波壓縮后的電子鼻響應信號,輸出量是白酒純度。優(yōu)化問題變?yōu)椋?/p>
(2)
式中:c為懲罰因子,用于調整訓練誤差樣本中的懲罰力度;b是偏差;ξi是訓練樣本的預測誤差向量;ω是權重向量。為了解上述優(yōu)化問題,需要把求解二次規(guī)劃的問題轉換成求解方程組問題,通過解方程組能夠得出LSSVM模型:
(3)
式中K(x1,xl)是符合Mercer理論條件下的核函數(shù),由于徑向基核函數(shù)具有擬合效果好,學習能力強等優(yōu)點,因此本文核函數(shù)采用徑向基函數(shù)并建立LSSVM模型,其算法如下:
(4)
核參數(shù)σ和懲罰因子c是影響LSSVM模型泛化能力和預測能力的兩大關鍵因素。核參數(shù)σ決定樣本空間至特征空間的一種映射關系,懲罰因子c可以實現(xiàn)最小化模型復雜度和訓練誤差之間的均衡。因此建立LSSVM預測模型的首要任務是尋找核參數(shù)σ和懲罰因子c的最佳優(yōu)化方式。
1.4.3.2 人工蜂群算法
人工蜂群算法(artificial bee colony,ABC)是一種模擬自然界中蜜蜂采蜜而設計的一種算法,通過模擬蜂群智能采蜜,交換蜂蜜源信息等過程而獲得最優(yōu)解,相對于遺傳算法算法算法具有較強的適應性與靈活性[35]。
在ABC算法中,將蜂群分為3種:雇傭蜂、跟隨蜂和偵查蜂,其中雇傭蜂和跟隨蜂數(shù)量各占蜂群數(shù)量的一半,且每個蜜源在同一時間只能有一個雇傭蜂工作,因此說蜜源與雇傭蜂數(shù)量相等,用C表示,放棄蜜源的雇傭蜂轉化為偵察蜂。ABC的尋優(yōu)過程可以概括為:雇傭蜂依靠它們記錄的蜜源位置在其鄰域內確定另一個蜜源,然后將蜜源信息發(fā)送給跟隨蜂,跟隨蜂采用貪婪機制選擇其中一個蜜源,隨后依靠所選蜜源在其鄰域內搜索另外一個蜜源,依次循環(huán),最終尋得最優(yōu)解。跟隨蜂和雇傭蜂主要用于尋找最優(yōu)解,偵查蜂則用于避免陷入局部最優(yōu)問題,若陷入局部最優(yōu)問題則隨機搜索新解。具體步驟如下:
(1)初始化蜂群。隨機生成初始化蜂群C,均勻分布在尋優(yōu)空間,其中雇傭蜂和跟隨蜂數(shù)量相等且為Ny=Ns=0.5C,雇傭蜂種群G={X1,X2,…,XNy},采蜜蜂個體為X={XI,1,XI,2,…,XI,M},其中i=1,2,…,Ny,A是問題解的維數(shù),Xi的各個分量由式(5)產(chǎn)生:
Xi,j=Xi,jmax+rand(0,1)(Xi,jmax-Xi,min)
(5)
式中:Xi,jmax,Xi,min分別表示Xi的第j個分量的下限和上限。
(2)收益度hi的計算。收益度通過式(6)求得:
(6)
式中:fi為目標函數(shù)。雇傭蜂通過式(7)產(chǎn)生新的雇傭蜂Xi, 1(其中i≠C):
Xi,1=Xi+rand(0,1)(Xi-XC)
(7)
(3)計算新產(chǎn)生采蜜蜂個體的收益度,根據(jù)式(8)分配跟隨蜂的數(shù)量,并由式(9)進行蜂群的更新:
(8)
Xi,2=Xi1+rand(0,1)(Xi1-XC1)
(9)
(4)依據(jù)貪婪機制選擇新蜂群。與之前的蜂群個體的收益度進行比較,收益度最大的個體成立新的蜂群。
(5)偵查蜂的生成。通過上一步后,按照式(10)轉變?yōu)閭刹旆鋁zi,其各個分量為:
Xzi,j=2(Xi,jmax-Xi,jmin)(0.5-rand(0,1))
(10)
(6)不滿足收斂時,回到步驟2,直到循環(huán)結束為止。
1.4.3.3 基于ABC算法的LSSVM參數(shù)優(yōu)化
最小二乘支持向量機,需要優(yōu)化的參數(shù)主要有核參數(shù)σ和懲罰因子c,基于ABC算法的LSSVM參數(shù)優(yōu)化流程如圖1所示。
圖1 基于ABC算法的LSSVM參數(shù)優(yōu)化Fig.1 Artificial bee colony least squared-support vector machines
(1)初始化ABC算法中的控制參數(shù):食物源的數(shù)量Ny,即雇傭蜂的數(shù)量。
(2)設置ABC算法的適應度函數(shù),優(yōu)化LSSVM的目的是獲得更好的定量預測精度,因此選用的適應度函數(shù)如式(11)。
(11)
式中:Vaca是LSSVM的預測精度。
(3)初始化參數(shù)的搜索范圍。核參數(shù)σ和懲罰因子c的改變均會影響LSSVM的預測性能,提前確定模型參數(shù)的搜索范圍,有助于獲得更好地預測精度。
為了驗證ABC-LSSVM的模型對白酒純度的預測性能,分別選擇留一交叉驗證算法優(yōu)化最小二乘支持向量機(LOOCV-LSSVM)、遺傳算法優(yōu)化最小二乘支持向量機(GA-LSSVM)以及標準粒子群算法優(yōu)化最小二乘支持向量機(PSO-LSSVM)與本算法進行比較分析。為了全面評估幾種模型預測性能,其有效性可通過決定系數(shù)(R2)來評價,其預測精度可通過均方根誤差(RMSE)以及平均相對誤差(MRE)來進行衡量。評價指標公式如下:
(12)
(13)
(14)
式中:n為測試樣本數(shù)量,ti和yi分別是測量及預測值。R2越大預測模型越有效,RMSE及MRE越小精度越高。
由于電子鼻每檢測一次就會產(chǎn)生6 000個原始數(shù)據(jù),這些數(shù)據(jù)信息量大、高維、含噪聲,難以直接進行模式識別分析,根據(jù)電子鼻檢測信號特點,本實驗利用Matlab軟件平臺,采用離散小波變換(DWT)進行數(shù)據(jù)預處理,分別采用Coiflets、Daubechies、haar、Symlets小波函數(shù)作為小波基函數(shù)對原始信息進行5~8層壓縮分解,波形相似系數(shù)f變化情況如圖2所示。對比發(fā)現(xiàn),以sym4為小波基函數(shù)經(jīng)6層壓縮效果最好,相似系數(shù)f為0.975 6,可將6 000個數(shù)據(jù)減小至47個數(shù)據(jù)。
圖2 不同壓縮層數(shù)及母小波對相似系數(shù)f的影響Fig.2 Influence on similarity coefficient of different decomposition level and mother wavelet
利用電子鼻對每個不同純度的摻假白酒樣品分別進行連續(xù)20次平行檢測,基于Matlab軟件平臺采用PCA對不同純度的摻假白酒樣品電子鼻檢測數(shù)據(jù)進行分析。其主成分分布如圖3所示,第一主成分和第二主成分的貢獻率分別為63.32%和25.80%,累積貢獻率達到89.12%,說明PCA很好地解釋了電子鼻特征信息。從圖3分類效果上來看,不同純度的摻假白酒樣品聚集在PCA圖中不同區(qū)域,即不同樣品之間存在較大的差異,電子鼻信號穩(wěn)定性較好,6種不同純度的摻假白酒得到了有效的區(qū)分。
圖3 摻假白酒PCA結果圖Fig.3 PCA Diagram of adulterated Liquor
為了實現(xiàn)對不同純度的摻假白酒定量預測,將6個傳感器的采集信號作為自變量,白酒純度作為因變量,建立LSSVM白酒純度定量預測模型。利用電子鼻對每種不同純度的摻假白酒樣品分別進行連續(xù)20次平行檢測,選取90個樣本(每種濃度15個,共6種濃度)作為訓練集,用以建立模型及優(yōu)化參數(shù)。剩余的30組(每種濃度5個,共6種濃度)作為驗證集,用于驗證所建立模型的性能。
為了驗證ABC-LSSVM的模型對白酒純度的預測性能,分別選擇留一交叉驗證算法優(yōu)化最小二乘支持向量機(LOOCV-LSSVM)、遺傳算法優(yōu)化最小二乘支持向量機(GA-LSSVM)以及標準粒子群算法優(yōu)化最小二乘支持向量機(PSO-LSSVM)與本算法進行比較分析。以建模集對上述模型進行優(yōu)化訓練,驗證集對模型預測性能進行檢驗,ABC-LSSVM白酒純度預測模型如圖4所示,不同參數(shù)優(yōu)化方法下的LSSVM白酒純度預測模型評價結果如表1所示。
圖4 不同純度白酒樣本ABC-LSSVM數(shù)據(jù)分析圖Fig.4 ABC-LSSVM data Analysis Diagram of Liquor samples with different Purity
綜合以上4種參數(shù)優(yōu)化方法的評價結果可以看出,LOOCV-LSSVM預測效果最差,這主要是因為LOOCV方法計算成本較高、尋優(yōu)過程復雜,不能更快、更準確的尋找最優(yōu)的(σ,c)參數(shù)組合造成的,從表1可以看出GA、PSO和ABC 3種LSSVM優(yōu)化方法確定的預測集預測結果回歸線與1∶1線都相接近,從表1可知3個LSSVM模型驗證集中,預測值與真實值之間的決定系數(shù)R2均大于0.92,RMSE均低于0.03,預測性能都較好,但以MRE為評價依據(jù),ABC優(yōu)化LSSVM模型的預測精度略高于PSO和GA優(yōu)化的LSSVM模型預測精度。各評價指標之間雖差距不大,但ABC優(yōu)化后的LSSVM模型對摻假白酒純度的預測精度已得到了很好地提高。這主要是因為ABC具有勞動分工和協(xié)作機制,收斂速度快、魯棒性強且全局尋優(yōu)性能優(yōu)異,因此相比于PSO和GA具有更強的靈活性與適應性[36-37],能夠更加準確的尋找最優(yōu)的(σ,c)參數(shù)組合,因此ABC-LSSVM模型對白酒純度就具有較高的預測能力。
表1 不同參數(shù)優(yōu)化方法下的PLSR和SVM模型性能指標對比Table 1 Performance comparison of PLSR and SVM model based on different parameter optimization methods
自行研制了一套電子鼻檢測系統(tǒng),并將其應用于摻假白酒的定性與定量檢測中。針對傳統(tǒng)上對電子鼻信號進行預處理大多采用面積值、穩(wěn)定值和平均微分值等提取法,提取信息量小,不能挖掘和利用全部信息等缺點,本文選用了DWT方法對電子鼻信號進行特征提取,然后采用PCA和LSSVM分別對白酒純度進行定性和定量辨別。LSSVM參數(shù)是影響預測效果的重要因素,提出了一種基于ABC的LSSVM優(yōu)化方法。同時,為了驗證ABC-LSSVM的模型對白酒純度的預測性能,分別選擇LOOCV-LSSVM、GA-LSSVM以及PSO-LSSVM與本算法進行比較分析,結果表明,ABC-LSSVM預測模型對摻假白酒定量預測效果最好。電子鼻系統(tǒng)能夠對摻假勾兌白酒樣本進行準確的定性和定量分析,該研究成果將為白酒純度檢測方面提供新的技術支撐。