武斌,王大智,嵇港,黃大鵬,武小紅,陳開兵,賈紅雯
1(滁州職業(yè)技術(shù)學(xué)院 信息工程系,安徽 滁州,239000)2(江蘇大學(xué) 京江學(xué)院, 江蘇 鎮(zhèn)江, 212013)3(江蘇大學(xué) 電氣信息工程學(xué)院, 江蘇 鎮(zhèn)江, 212013)
食醋是人們?nèi)粘o嬍持谐S玫乃嵝哉{(diào)味品。由于食醋釀造的地理位置、氣候和水源環(huán)境、原材料以及釀造工藝流程的各有千秋,因此釀造出來的食醋風(fēng)味不同[1]。市場上有多種品牌的食用醋,醋的質(zhì)量良莠不齊,還存在以次充好的現(xiàn)象,而普通消費(fèi)者憑主觀判斷選擇食醋難以確定食醋品質(zhì)。
電子鼻技術(shù)包含了傳感器,模式識別,信號處理等多個(gè)學(xué)科的技術(shù)。隨著物聯(lián)網(wǎng)和人工智能的發(fā)展,電子鼻技術(shù)將成為新的研究熱點(diǎn)[2]。電子鼻利用傳感器陣列對氣體反應(yīng)靈敏來檢測混合氣體,被廣泛用來分析各種有機(jī)揮發(fā)性有機(jī)化合物的氣體成分[3-5]。由于電子鼻具有無損檢測,速度快,智能化,靈敏度高等優(yōu)點(diǎn),在食品及食品安全行業(yè)領(lǐng)域得到應(yīng)用[6]。目前,電子鼻技術(shù)在有毒氣體檢測[7-9]、中藥檢測[10-13]和食品安全檢測[14-18]上都有應(yīng)用。特別在食品檢測上,已經(jīng)成為研究熱點(diǎn)。例如電子鼻已經(jīng)成功應(yīng)用于對碳酸飲料[14],鱈魚[15],豬肉冷凍儲藏期[16-17],不同產(chǎn)地名優(yōu)紅茶和綠茶[18]等的檢測。WU等使用自制電子鼻設(shè)備,提出模糊鑒別主成分方法,快速準(zhǔn)確判別不同品牌的白酒[19]。成劍峰等使用PEN3電子鼻判斷食醋是否變質(zhì),使用主成分分析(principal component analysis,PCA)和線性判別分析(linear discriminant analysis,LDA)進(jìn)行對比分析,獲得很好的效果[20]。黎新榮使用PEN3電子鼻對不同貯藏時(shí)間沃柑的氣味進(jìn)行判別,分別采用PCA和LDA對氣味進(jìn)行特征值提取,最后比較發(fā)現(xiàn)使用LDA具有更好的準(zhǔn)確率[21]。食醋的香氣成分多達(dá)65種,其中酸類,酯類和酮類共占79.15%,乙酸乙酯,苯乙醇,苯乙醛,3-羥基2-丁酮,乙醛-3-甲基1-丁醋,2-甲基丁酸,2, 3-丁二酮,二氫-5-戊基-2(3H)呋喃酮共8種特征香氣[22]是區(qū)分食醋的關(guān)鍵物質(zhì)。不同品種的食醋其8種特征香氣存在差異,這些差異有利于食醋品種的分類。
綜上所述,電子鼻技術(shù)可實(shí)現(xiàn)對食醋的分類。目前,電子鼻技術(shù)的應(yīng)用存在兩個(gè)問題,第一,大部分采用的電子鼻都不是自制的,使用的德國的PEN3比較多,價(jià)格昂貴,不利于市場推廣使用,操作起來也很復(fù)雜;第二,分類方法仍然有待進(jìn)一步研究和優(yōu)化。本研究設(shè)計(jì)一種用于食醋檢測的電子鼻系統(tǒng),用主成分分析(PCA)+線性判別分析(LDA)和正交線性判別分析(orthogonal linear discriminant analysis,OLDA)[23]來處理電子鼻信號而實(shí)現(xiàn)食醋品種的快速無損檢測。
實(shí)驗(yàn)所用食醋品種共有5種,分別是鎮(zhèn)江香醋、恒順香醋、鎮(zhèn)江陳醋、山西陳醋和保寧醋。5種食醋的詳細(xì)信息見表1。
表1 食醋的詳細(xì)信息
實(shí)驗(yàn)所用的食醋電子鼻系統(tǒng)主要包括氣體傳感器陣列、數(shù)據(jù)采集卡、PC機(jī)、氣室、電源模塊和樣品瓶等組成。如圖1所示。
圖1 食醋電子鼻系統(tǒng)
采用TGS813、TGS822、TGS822TF、TGS2620、TGS2610、TGS2611、TGS2602、TGS2600、MQ135、MQ3十個(gè)半導(dǎo)體氣體傳感器。傳感器的基本信息見表2。本文的自制電子鼻針對食醋的特征香氣選取電子鼻傳感器,用于食醋品種分類。電子鼻傳感器對所測樣品的氣味類別和氣味濃度敏感,工作環(huán)境溫度在20 ℃和濕度在35%~70%。
表2 傳感器的基本信息
1.2.1 環(huán)境溫度與濕度
實(shí)驗(yàn)采用了靜態(tài)測試法,在室溫約20 ℃和濕度40%左右的環(huán)境下進(jìn)行采樣。
1.2.2 電子鼻系統(tǒng)
首先打開樣品瓶蓋,將電子鼻各部分器件連接起來,電源模塊接傳感器陣列,傳感器陣列信號輸出端接數(shù)據(jù)采集卡的輸入端,數(shù)據(jù)采集卡的輸出端通過USB線連接到PC機(jī)。將電子鼻通電10 min進(jìn)行預(yù)熱。
1.2.3 食醋樣本
量取10 mL樣品放入樣品瓶中,將樣品瓶的氣管與氣室連接,伸入氣室的氣管位置正好位于傳感器陣列中心,目的是對各個(gè)傳感器響應(yīng)時(shí)間保持大體一致,然后連接好數(shù)據(jù)采集卡與傳感器陣列和PC,并計(jì)時(shí)。讓傳感器靜置60 min,待氣體揮發(fā)完全[23]。
1.2.4 電子鼻信號采集
編寫控制PC端Labview程序,設(shè)置好數(shù)據(jù)采集卡參數(shù),分別在60 min采集數(shù)據(jù)1次,然后每隔5 min采集1次,總共采集3次,最后計(jì)算3次結(jié)果的平均值作為最終結(jié)果,將結(jié)果通過USB傳輸并保存到PC機(jī)。采集1次完成后,打開樣品瓶的瓶蓋,開啟出氣的氣泵,清除整個(gè)系統(tǒng)的氣味10 min,使傳感器恢復(fù)初始狀態(tài)[23]。將采集的數(shù)據(jù)結(jié)果按食醋品種分類保存,每個(gè)品種食醋的樣本數(shù)為51,每個(gè)樣本10 mL,共255個(gè)樣本。
與線性判別分析相比,正交線性判別分析(OLDA)[24]無需事先運(yùn)行PCA對數(shù)據(jù)進(jìn)行降維。OLDA的判別投影向量之間的正交關(guān)系以消除投影中的冗余信息,OLDA要計(jì)算的新投影向量與所有先前獲得的投影向量正交,解決了LDA小樣本問題。
假設(shè)有一組樣本的集合IR,令訓(xùn)練樣本矩陣A={A1,A2,…,Ak},其中Ai∈IR。類內(nèi)方差矩陣為Sw,類間方差矩陣為Sb和總體方差矩陣別為St定義公式(1)、(2)、(3)、(4)如下:
(1)
(2)
(3)
(4)
式中:e(i)=(1,1,...,1)T∈Rni,e=(1,1,...,1)T∈Rn,c(k)是第k類樣本均值,c為總體樣本均值。
實(shí)驗(yàn)獲得5種食醋總樣本共255個(gè)數(shù)據(jù),每種食醋有51個(gè)樣本數(shù)據(jù),將51個(gè)樣本數(shù)據(jù)里的20個(gè)數(shù)據(jù)作為訓(xùn)練樣本,其余的31個(gè)數(shù)據(jù)作為測試樣本。也就是總樣本255個(gè)數(shù)據(jù)分成100個(gè)訓(xùn)練樣本數(shù)據(jù)集和155個(gè)測試樣本數(shù)據(jù)集。所有的樣本都是1×10的向量,則100個(gè)訓(xùn)練樣本數(shù)據(jù)可得到100×10的數(shù)據(jù)矩陣;同理155個(gè)測試樣本數(shù)據(jù)可得到155×10的數(shù)據(jù)矩陣。用100個(gè)訓(xùn)練樣本數(shù)據(jù)進(jìn)行模式訓(xùn)練學(xué)習(xí),建立食醋的預(yù)測分類模型,再用155個(gè)測試樣本數(shù)據(jù)來檢驗(yàn)該模型的分類準(zhǔn)確率。
對采集的255個(gè)食醋樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)正態(tài)變量變換處理。標(biāo)準(zhǔn)正態(tài)變量變換也稱為標(biāo)準(zhǔn)歸一化,它是一種預(yù)處理方法,能降低電子鼻采集數(shù)據(jù)中產(chǎn)生的噪聲影響,有效地優(yōu)化了原始數(shù)據(jù),減少冗余信息。標(biāo)準(zhǔn)正態(tài)變量變換就是將數(shù)據(jù)按照對于一組實(shí)驗(yàn)獲得的原始樣本,求出它的標(biāo)準(zhǔn)差、方差和均值,通過標(biāo)準(zhǔn)歸一化變換得到一個(gè)新變量。標(biāo)準(zhǔn)正態(tài)變量變換能夠按照比例把樣本數(shù)據(jù)進(jìn)行平移和縮放,使數(shù)據(jù)落入到一個(gè)特定的小區(qū)間中。
PCA是一種基于Karhunen-Loeve變換思想的方法[25],它主要是用于簡化變量結(jié)構(gòu)并提取訓(xùn)練數(shù)據(jù)樣本空間的特征,把樣本空間從高維降到低維。使用PCA得到的樣本數(shù)據(jù)不僅能降低各特征信息相關(guān)性和減少冗余信息,還能使得訓(xùn)練算法的運(yùn)行效率得到提高。線性判別分析[26]計(jì)算得到一個(gè)最優(yōu)的線性變換,通過這個(gè)變換,高維空間中的原始數(shù)據(jù)被轉(zhuǎn)換為一個(gè)更低維的特征空間,在減小維數(shù)的同時(shí)保留盡可能多的分類信息。
首先使用PCA算法對預(yù)處理后的數(shù)據(jù)進(jìn)行第1次降維,其中降維是通過針對數(shù)據(jù)矩陣求取特征向量和特征值然后選取合適的維數(shù)。定義其特征向量數(shù)為6,得到其特征值見表3。其對應(yīng)的特征向量為表4所示。用PCA降維后,根據(jù)前2個(gè)特征向量投影形成的測試樣本的兩維散點(diǎn)圖如圖2所示。圖2中PC1和PC2為PCA的前2個(gè)特征向量。由圖2可知,鎮(zhèn)江香醋和山西陳醋重疊在一起難以區(qū)分開,而保寧醋和其他4種醋間隔遠(yuǎn),易于和其他4種醋區(qū)分開。
表3 用PCA計(jì)算得到的特征值
表4 用PCA計(jì)算得到的特征向量
圖2 主成分分析處理后的測試樣本兩維散點(diǎn)圖
在通過PCA降維處理后得到了255×6的樣本集,其中訓(xùn)練集數(shù)據(jù)為100×6,余下所有數(shù)據(jù)均為測試集數(shù)據(jù)。通過線性判別的方法提取鑒別特征向量。經(jīng)過LDA算法的計(jì)算后,最終將PCA算法降維得到的155×6的測試數(shù)據(jù)樣本轉(zhuǎn)換成155×4的新的測試集。完成了從PCA特征空間向LDA特征空間的空間轉(zhuǎn)換,達(dá)到了降維和提取分類信息的目的。
經(jīng)過LDA計(jì)算后得到的測試樣本的兩維散點(diǎn)圖見圖3。由圖3可知,食醋電子鼻信號經(jīng)過PCA+LDA后完成了數(shù)據(jù)維數(shù)從10維到4維的減少,從測試樣本的兩維散點(diǎn)圖可以看出,鎮(zhèn)江香醋和山西陳醋這2類醋數(shù)據(jù)點(diǎn)很靠近給分類造成一定難度,容易造成誤分類現(xiàn)象。恒順香醋、鎮(zhèn)江陳醋和保寧醋這3種醋彼此之間以及與其他2種醋的間隔較大,比較容易區(qū)分開。
經(jīng)過OLDA處理后的測試樣本的兩維散點(diǎn)圖見圖4。圖4和圖3情況類似,鎮(zhèn)江香醋和山西陳醋兩種醋的數(shù)據(jù)點(diǎn)很靠近,不利于分類器進(jìn)行分類。另外,在本文中OLDA處理后的測試樣本是4維數(shù)據(jù),無法可視化看到4維數(shù)據(jù)分布情況,所以也就無法進(jìn)一步比較PCA+LDA和OLDA處理后測試樣本的4維數(shù)據(jù)分布。
圖3 線性判別分析處理后的測試樣本兩維散點(diǎn)圖
圖4 正交線性判別分析處理后的測試樣本兩維散點(diǎn)圖
PCA將數(shù)據(jù)降為不同特征維數(shù)時(shí)再用LDA計(jì)算降為4維后,用最近鄰分類器得到的食醋識別準(zhǔn)確率見圖5。由圖5可知,當(dāng)特征維數(shù)為9時(shí),PCA+LDA分類準(zhǔn)確率最高。在其他特征維數(shù)時(shí),分類準(zhǔn)確率保持在85%以上。
圖5 特征維數(shù)與識別準(zhǔn)確率的關(guān)系
在PCA以后再用LDA,這種方法是在降維的另一階段之后執(zhí)行LDA。由于類內(nèi)散布矩陣Sw的秩以m-c為上限,所以PCA的最大維數(shù)可以減少到m-c,其中m是訓(xùn)練集的大小,并且c表示類的大小。然而,PCA + LDA存在一個(gè)嚴(yán)重的問題,那就是分類信息可能會丟失。
OLDA強(qiáng)制判別投影向量之間的正交關(guān)系以消除投影中的冗余信息,從而在識別率方面實(shí)現(xiàn)比傳統(tǒng)判別投影向量更強(qiáng)的判別投影向量。OLDA算法在處理數(shù)據(jù)時(shí)無需先用PCA對數(shù)據(jù)進(jìn)行降維,其計(jì)算的新投影向量與所有先前獲得的投影向量正交。針對PCA+LDA方法的不足,用正交線性判別分析對食醋電子鼻信號進(jìn)行處理,再用最近鄰分類器進(jìn)行分類。表5列出了樣本在不同劃分情況下的分類準(zhǔn)確率。
由表5可知,當(dāng)每類食醋電子鼻信號的訓(xùn)練樣本個(gè)數(shù)為20,測試樣本個(gè)數(shù)為31個(gè)時(shí),主成分分析與線性判別分析的分類準(zhǔn)確率達(dá)到最高(90.32%)。對于不同的訓(xùn)練樣本與測試樣本劃分情況,基于正交線性判別分析的分類準(zhǔn)確率始終保持在90%以上,高于PCA+LDA方法的分類準(zhǔn)確率。
表5 樣本不同劃分情況下的分類準(zhǔn)確率
由圖6可知,當(dāng)每類的食醋電子鼻信號的訓(xùn)練樣本個(gè)數(shù)變化時(shí),基于正交線性判別分析的分類準(zhǔn)確率要明顯高于基于PCA+LDA方法的分類準(zhǔn)確率。
當(dāng)總樣本數(shù)較少時(shí),例如總樣本數(shù)是75個(gè)數(shù)據(jù)樣本(即每種15個(gè)樣本數(shù)),當(dāng)訓(xùn)練樣本每種6個(gè)樣本數(shù),共30個(gè)訓(xùn)練樣本,測試樣本每種9個(gè)樣本數(shù),共45個(gè)測試樣本。用PCA將數(shù)據(jù)降維到6維,再用LDA降維到4維,最后用最近鄰分類器進(jìn)行分類,分類準(zhǔn)確率為82.22%。用OLDA將數(shù)據(jù)降維到4維,用最近鄰分類器進(jìn)行分類,可得分類準(zhǔn)確率為82.22%。
圖6 訓(xùn)練樣本個(gè)數(shù)變化時(shí)兩種算法分類準(zhǔn)確率
采用主成分分析與線性判別分析(PCA+LDA)方法對食醋電子鼻信號進(jìn)行處理會存在分類信息丟失現(xiàn)象。為了克服這一缺陷,引入正交線性判別分析方法對食醋電子鼻信號進(jìn)行處理,分類準(zhǔn)確率得到了提高。對訓(xùn)練樣本和測試樣本進(jìn)行了不同劃分,當(dāng)訓(xùn)練樣本為20,測試樣本為31時(shí),PCA+LDA方法識別準(zhǔn)確率達(dá)到最高90.32%。而且,在訓(xùn)練樣本和測試樣本劃分變化時(shí),使用正交線性判別分析方法的食醋電子鼻信號分類準(zhǔn)確率明顯高于使用PCA+LDA方法的分類準(zhǔn)確率,即基于正交線性判別分析的電子鼻食醋信號分類是切實(shí)可行的一種方法。當(dāng)總樣本數(shù)較少,訓(xùn)練樣本較少時(shí),分類準(zhǔn)確率不高,此問題有待以后的進(jìn)一步研究和探索。