韓云翠,王冠霖,呂志遠,劉玉濤,張夢夢,盧春玲,邱振清,汪俊卿
1.齊魯工業(yè)大學(xué)(山東省科學(xué)院)生物工程學(xué)院,山東 濟南 250353;2.濟南趵突泉釀酒有限責(zé)任公司,山東 濟南 250115;3.北京航空航天大學(xué) 計算機學(xué)院,北京 100191
隨著大數(shù)據(jù)和人工智能的興起,酒行業(yè)正在經(jīng)歷數(shù)字化智能管理的變革,一系列智能釀造機、智能摘酒機、智能勾兌系統(tǒng)、供應(yīng)鏈與產(chǎn)品數(shù)字化智能管理平臺正在推動酒業(yè)全產(chǎn)業(yè)鏈的轉(zhuǎn)型升級。設(shè)備與平臺的使用需依托數(shù)據(jù)的處理分析,而模式識別方法建模是數(shù)據(jù)分析與應(yīng)用的核心。模式識別是通過區(qū)分樣本的不同特征來劃分樣本的一種計算機機器學(xué)習(xí)方法,模式識別方法的迅速普及歸功于計算機強大的學(xué)習(xí)和分類能力[1],模式是指樣本所處環(huán)境與客體,模式的自動處理和判讀是通過計算機用數(shù)學(xué)技術(shù)方法來實現(xiàn)的。識別問題[2]是一個分類任務(wù),類可以由領(lǐng)域?qū)<叶x(監(jiān)督學(xué)習(xí))或根據(jù)模式的相似性學(xué)習(xí)(無監(jiān)督分類)。分類對象由多維屬性向量表示,利用決策邊界對這些向量所跨越的空間進行細分。模式識別建模過程是將訓(xùn)練樣本或例子進行歸納,根據(jù)經(jīng)驗判斷,輸出一個目標(biāo)函數(shù),使系統(tǒng)能夠準(zhǔn)確的預(yù)測未知數(shù)據(jù)或?qū)o定數(shù)據(jù)做出判別,以實現(xiàn)建模目的[3]。經(jīng)驗以訓(xùn)練數(shù)據(jù)集的形式存在,它有助于在新的和看不見的任務(wù)上獲得準(zhǔn)確的結(jié)果。訓(xùn)練數(shù)據(jù)集包含一個現(xiàn)有問題領(lǐng)域,學(xué)習(xí)者使用該領(lǐng)域數(shù)據(jù)建立一個通用模型,該模型能在新數(shù)據(jù)中產(chǎn)生基本準(zhǔn)確的預(yù)測[4]。
傳統(tǒng)酒業(yè),尤其是白酒發(fā)酵和摘酒方面,主要依靠工人師傅的經(jīng)驗,缺少統(tǒng)一的評判標(biāo)準(zhǔn),使白酒釀造過程[5-6]無法量化,質(zhì)量參差不齊,制約了酒行業(yè)的發(fā)展。將利用模式識別方法建立的模型應(yīng)用到釀造機器的控制系統(tǒng),實現(xiàn)機器設(shè)備對重要工藝參數(shù)的準(zhǔn)確判斷是關(guān)鍵。本文總結(jié)了模式識別方法的類別與特點及其在酒行業(yè)中的應(yīng)用,以對使用模式識別方法建模來解決酒行業(yè)中遇到的問題提供參考。
模式識別方法應(yīng)用的關(guān)鍵是獲取準(zhǔn)確的分析數(shù)據(jù)和找到合適的判定標(biāo)準(zhǔn)。通過將儀器測量的理化數(shù)據(jù)作為輸入單元,將應(yīng)用的系統(tǒng)判斷作為教師數(shù)據(jù),使用選定的模式識別方法進行學(xué)習(xí)訓(xùn)練,達到目標(biāo)應(yīng)用的結(jié)果。模式識別算法開發(fā)過程包括數(shù)據(jù)的收集、數(shù)據(jù)的預(yù)處理、數(shù)據(jù)轉(zhuǎn)換為模型可用的數(shù)據(jù)形式、測試集建立模式識別算法模型、測試集評估模型效果、應(yīng)用模型等過程,如圖1所示。
圖1 模式識別方法構(gòu)建模型流程圖
偏最小二乘法(partial least squares,PLS)是定量光譜分解技術(shù),其分解方式與主成分回歸略有不同。主成分回歸是先將光譜矩陣分解成一組特征向量和矩陣,并將他們與濃度作為一個單獨的步驟進行回歸[7]。PLS是在分解過程中直接使用濃度信息,它從自變量矩陣和因變量矩陣中提取偏最小二乘成分,有效地降維,并消除自變量間可能存在的復(fù)共線關(guān)系,明顯改善數(shù)據(jù)結(jié)果的可靠性和準(zhǔn)確度[8],是目前化學(xué)計量學(xué)中最有效的分析方法之一。因此,PLS常用于酒中成分檢測方面,吉鑫等[9]以核磁共振氫譜(1H NMR)技術(shù)為檢測手段,結(jié)合偏最小二乘回歸算法,建立了白酒中6種酸,3種醛的PLS定量分析模型,解決了白酒的核磁共振氫譜中各微量組分信號重疊,無法定量的難點,該模型范圍誤差比≥3.7,相關(guān)系數(shù)R2為0.93~0.99,預(yù)測偏差<0.7,模型預(yù)測精度較高,擬合效果較好,為白酒真實性鑒別中1H NMR非目標(biāo)指紋圖譜技術(shù)的應(yīng)用奠定了基礎(chǔ)。此外,PLS與近紅外、中紅外光譜技術(shù)聯(lián)合應(yīng)用在酒中香味物質(zhì)及白酒酒醅理化參數(shù)快速檢測方面取得了很好的效果[10-14],具體應(yīng)用見表1。
表1 偏最小二乘法應(yīng)用一覽表
主成分分析法(principal component analysis,PCA)能在不損失或很少損失的情況下對變量間的相關(guān)性進行分析,同時還可得到各主成分對結(jié)果的不同貢獻比率。PCA可做數(shù)據(jù)降維處理,將多個有相互關(guān)系或無相互關(guān)系的復(fù)雜變量重新組合,形成一組新的相互間無關(guān)聯(lián)的變量就是主成分,降維簡化后的數(shù)據(jù)間的互相干擾大大減少,使分析變得簡單明了[15]。降維能降低測試成本,提高分類精度,是保持模式維數(shù)盡可能小的關(guān)鍵[2]。在智能化食品感官分析中,PCA不僅可確定食品理化特征與感官特征的相關(guān)性,還可降低計算機處理的數(shù)據(jù)維度[16],是一種尋找與感官剖面數(shù)據(jù)相匹配的揮發(fā)物數(shù)量最小的技術(shù)[17]。唐維川等[18]檢測了7個輪次醬香型基酒風(fēng)味物質(zhì),結(jié)果表明各輪次基酒中總酸含量隨輪次數(shù)增加而減小,總酯含量呈先上升后下降的趨勢,主成分分析結(jié)果表明正丙醇、乙酸乙酯和乙酸累計貢獻率可達到89.30%,醬香型白酒7個輪次基酒可以通過主成分分析法結(jié)合風(fēng)味物質(zhì)的差異性實現(xiàn)準(zhǔn)確區(qū)別和評價。利用現(xiàn)代儀器分析檢測手段結(jié)合PCA模式識別方法[18-23]在香型分類、真假酒鑒定、產(chǎn)地溯源、質(zhì)量等級判斷等方面的應(yīng)用見表2。
表2 主成分分析法應(yīng)用一覽表
人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)算法中的人工神經(jīng)元模仿的是一些體系結(jié)構(gòu)使用帶有本地支持的函數(shù)端口,在這個結(jié)構(gòu)中傳遞函數(shù)是一個硬閾值,一個神經(jīng)元是否觸發(fā)取決于它的凈輸入值[24]。ANN包括輸入層、輸出層和隱藏層,隱藏層最佳層數(shù)與神經(jīng)元最優(yōu)個數(shù)是構(gòu)建網(wǎng)絡(luò)的關(guān)鍵問題,設(shè)置隱藏層要合理,層數(shù)太多容易導(dǎo)致過度擬合的問題;隱藏的神經(jīng)元數(shù)量越少,創(chuàng)建的子區(qū)域就越少,網(wǎng)絡(luò)就傾向于聚集點并將它們映射到相同的輸出。每個神經(jīng)元的輸出是非線性變化,分類時,來自前一層加權(quán)輸入形成的分離曲線,與同一層的其他神經(jīng)元一起定義最終的分類邊界。當(dāng)神經(jīng)元數(shù)量較多時,由于過度訓(xùn)練,過擬合風(fēng)險增加,而廣義性能下降。必須有足夠的數(shù)據(jù)點進行訓(xùn)練,以確保在每個隱藏層獲得的分區(qū)正確地分離數(shù)據(jù)。在網(wǎng)絡(luò)中,包含了輸入神經(jīng)元,輸出神經(jīng)元及L個隱含層,訓(xùn)練學(xué)習(xí)問題被簡化為尋找最優(yōu)權(quán)值,從而優(yōu)化代數(shù)函數(shù)。ANN在監(jiān)督學(xué)習(xí)的許多分類任務(wù)中表現(xiàn)良好,但在無監(jiān)督方式進行訓(xùn)練時比預(yù)訓(xùn)練階段的表現(xiàn)要差[25]。人工神經(jīng)網(wǎng)絡(luò)包括反饋網(wǎng)絡(luò)和前向網(wǎng)絡(luò),反饋網(wǎng)絡(luò)的各神經(jīng)元間有反饋,而前向網(wǎng)絡(luò)由于各層間沒有反饋,只能由前一級推向下一級依靠簡單非線性的函數(shù)多次復(fù)合來解決問題。反向傳播人工神經(jīng)網(wǎng)絡(luò)(back propagation artificial neural network,BP-ANN)包括信號的前向傳播和誤差的反向傳播兩個過程,網(wǎng)絡(luò)實際輸出值和期望輸出值的誤差均方差最小值是通過梯度搜索技術(shù)也就是梯度下降法實現(xiàn)的,是目前使用最多的一種誤差逆向傳播算法訓(xùn)練的前饋神經(jīng)網(wǎng)絡(luò)[26]。另外,卷積神經(jīng)網(wǎng)絡(luò) (convolutional neural network,CNN) 的開發(fā)解決了以復(fù)雜圖像為輸入數(shù)據(jù)的問題,在該網(wǎng)絡(luò)中,由所有圖像共享的卷積核連接了上下層神經(jīng)元,從而將圖像引入神經(jīng)網(wǎng)絡(luò)系統(tǒng)中。在酒行業(yè)中,神經(jīng)網(wǎng)絡(luò)模式識別算法的應(yīng)用面廣泛,Ce’sar Roma’n R.等[27]利用神經(jīng)網(wǎng)絡(luò)預(yù)測有問題的葡萄酒發(fā)酵,研究了用點法和發(fā)酵法兩種不同的數(shù)據(jù)輸入方法,通過改變預(yù)測變量總糖、酒精、甘油、密度、有機酸、氮化合物和發(fā)酵時間,發(fā)現(xiàn)發(fā)酵數(shù)據(jù)輸入的結(jié)果優(yōu)于按點輸入的結(jié)果,總結(jié)出使用3個預(yù)測變量糖、密度、酒精在72 h的發(fā)酵數(shù)據(jù)就可100%預(yù)測正常發(fā)酵和異常發(fā)酵。目前,ANN在看花摘酒、成品酒勾兌、品牌鑒別、分析酒質(zhì)變化影響因素等方面的應(yīng)用[28-36]見表3。
表3 神經(jīng)網(wǎng)絡(luò)法應(yīng)用一覽表
支持向量機(support vector machine,SVM)是一種監(jiān)督類型的學(xué)習(xí)方法,用于識別分類與分析數(shù)據(jù),尤其是分類、回歸和時間序列預(yù)測[37]。SVM利用兩個非平行的超平面,在最小化到一個類的距離的同時遠離另一個類。SVM可用于解決線性或非線性分類問題,這取決于解決問題所使用的核函數(shù),如果樣本對于整個分類空間是線性可分的,就可用線性核函數(shù)把樣本明確地分成不同的類別[38],允許有少數(shù)樣本劃分的模糊。當(dāng)面臨的問題是非線性時,就可以使用多項式核函數(shù)、sigmoid核函數(shù)、RBF核函數(shù)等將二維平面不能線性劃分的樣本在更高維度空間里線性可分,從而解決非線性分類問題。SVM在鑒定白酒年份、判斷白酒質(zhì)量等級、白酒自動化生產(chǎn)等方面都有應(yīng)用研究[39-45],具體結(jié)果見表4。田萬春等[42]為解決白酒自動化生產(chǎn)過程中準(zhǔn)確率不高問題,用SVM建模方法與紅外成像儀聯(lián)合,直方圖處理了酒醅表面的紅外灰度圖像,構(gòu)建的探汽模型準(zhǔn)確率達到了了96%,滿足了生產(chǎn)工藝要求;李慧星等[46]將濃香型白酒揮發(fā)性香味物質(zhì)與酒醅微生物數(shù)據(jù)信息結(jié)合,建立二者間關(guān)系模型,取得了應(yīng)用技術(shù)創(chuàng)新成果,為優(yōu)化生產(chǎn)工藝做參考。
表4 支持向量機應(yīng)用一覽表
除以上4種建模方法外,還有K近鄰法、聚類分析、遺傳算法等模式識別算法,這些模式識別算法在酒行業(yè)中單獨使用較少,一般與其他算法組合使用。K近鄰法 (KNN) 是一種簡單有效的機器學(xué)習(xí)算法,在特征向量空間中,如果一個樣本附近的K個最鄰近樣本屬于某個類別,則該樣本也屬于這一類別[47]。KNN不需要使用訓(xùn)練集進行訓(xùn)練,訓(xùn)練時間復(fù)雜度為0,但計算量較大,需要對每一個待分類的樣本計算他到所有已知樣本的距離才可求得K個最近鄰點。聚類分析的基礎(chǔ)是應(yīng)用無監(jiān)督機器學(xué)習(xí)技術(shù)識別數(shù)據(jù)集中固有的模式[2],將研究對象分成相對同質(zhì)的幾個類或簇,主要應(yīng)用于探索性研究。遺傳算法通過編碼將要求解的問題表示成遺傳空間的染色體或個體,對所優(yōu)化參數(shù)進行二進制或多進制編碼,隨機產(chǎn)生n個初始種群,再由種群擇優(yōu)的目標(biāo)方向確定種群適應(yīng)度函數(shù),判斷遺傳算法的性能[48]。
朱衛(wèi)華等[49]研究發(fā)現(xiàn)三維熒光光譜與白酒年份有很好的相關(guān)性,然后用量子遺傳算法-小波神經(jīng)網(wǎng)絡(luò)構(gòu)建了白酒年份預(yù)測模型,提出光譜建模信息密度的概念。陳斌等[50]將相關(guān)系數(shù)法與遺傳算法結(jié)合提高了紅外光譜有效信息提取率,提高了啤酒酒精度預(yù)測模型精度。變量間復(fù)雜的相互關(guān)系增加了機器學(xué)習(xí)的難度,降低了建模效率,只用一種模式識別方法建模的準(zhǔn)確性達不到要求,而多種方法組合使用會有更好的效果[51-54],具體結(jié)果見表5。
表5 不同模型算法間組合應(yīng)用對比一覽表
在利用信息化技術(shù)促進產(chǎn)業(yè)變革的背景下,酒類釀造過程的信息化及智能化越來越普遍,模式識別方法特有的模糊數(shù)據(jù)處理能力和事件關(guān)聯(lián)能力能夠?qū)⑨勗旃に噮?shù)和酒類品質(zhì)有效關(guān)聯(lián),降低人力成本,提高生產(chǎn)效率。目前,大數(shù)據(jù)與近紅外、中紅外及現(xiàn)代色譜檢測技術(shù)結(jié)合,利用模式識別方法建立的模型模擬了酒中成分變化與發(fā)酵條件的關(guān)系,實現(xiàn)了酒醅理化性質(zhì)和酒中成分的快速檢測,判定了白酒質(zhì)量等級,追溯了酒齡與原產(chǎn)地,實現(xiàn)了摘酒和勾兌過程智能化,提高了檢測效率、酒質(zhì)量等級準(zhǔn)確性和基酒使用效率,為酒行業(yè)信息化及智能化發(fā)展提供了思路。應(yīng)用模式識別方法建模是酒類智能化生產(chǎn)的內(nèi)核,如何利用模式識別方法建立符合實際生產(chǎn)應(yīng)用的模型為酒類智能釀造提供技術(shù)支持是未來研究的重要方向。