郝 勇, 王起明, 張書敏
1. 華東交通大學機電與車輛工程學院, 江西 南昌 330013 2. 南昌海關技術中心, 江西 南昌 330038
鴨梨在儲藏過程中由于低溫、 低氧和高二氧化碳濃度會出現內部褐變的現象[1]。 這與鴨梨組織內的多種酶類、 酚類以及膜脂過氧化等因素有關[2], 主要是多酚氧化酶與酚類物質在有氧的條件下反應生成復雜的醌類化合物[3], 醌類物質會與氨基酸、 蛋白質等發(fā)生反應產生褐色的高分子絡合物。
可見-近紅外光譜應用于鴨梨黑心病檢測的主要原因是果實褐變過程中, 果實內部的C—H, N—H, O—H等含氫基團振動的倍頻和合頻在不同化學環(huán)境中對可見-近紅外光的吸收波長都有明顯差別。 Gabri?ls[4]等將可見-近紅外光譜與芒果內部顏色分析獲得的褐變指數值聯(lián)系起來, 與人工神經網絡結合可以對芒果內部褐變進行鑒別, 準確度超過 80%。 Sun[5]等使用近紅外光譜結合偏最小二乘判別分析模型檢測蘋果內部褐變, 有21%的健康蘋果被錯誤分類。 Mogollon[6]等針對蘋果在冷藏期間容易出現內部褐變現象, 提出可見-近紅外光譜結合偏最小二乘判別分析模型來預測存儲開始時損壞的水果, 達到約87%的正確識別率。 Khatiwada[7]采用可見-短波近紅外光譜法結合偏最小二乘對完整蘋果內部果肉褐變進行靜態(tài)評估, 并進行線性判別分析和支持向量機分類, 正確識別率為95%以上。 由文獻報道分析可知, 在采用可見-近紅外光譜分析方法對果品缺陷進行分析時, 靜態(tài)分析效果較好, 而動態(tài)在線分選由于采用開放式的采集裝置和較高分級效率的要求, 導致分析模型的精度較低。
針對可見-近紅外光譜法在鴨梨黑心缺陷在線分選精度較低的不足, 提出了不同光譜預處理方法結合k近鄰法(k-nearest neighbor, kNN)、 樸素貝葉斯法(naive Bayes classifier, NBC)、 支持向量機法(support vector machines, SVM)以及基于Adaboost的集成學習等方法對鴨梨黑心病進行在線判別, 以期得到一種高精度的果品病害在線判別模型的構建方法, 提升我國新鮮果品的質量分級水平。
樣品: 選用河北鴨梨作為實驗樣品, 采用冷藏運送, 到達實驗室后將鴨梨樣品置于20 ℃恒溫條件下保存, 實驗前擦除鴨梨表面的污漬與水分。 鴨梨樣品共計285個, 采用KS(Kennard-Stone)方法[8]對樣品進行2∶1劃分為訓練集樣本與測試集樣本。 樣品集信息如表1所示, 訓練集共190個鴨梨樣品, 包含正常鴨梨80個, 黑心鴨梨110個; 測試集共95個鴨梨樣品, 包含正常鴨梨40個, 黑心鴨梨55個。
表1 樣品集信息Table 1 Sample set information
鴨梨可見-近紅外光譜在線分選裝置示意如圖1所示, 裝置包括輸送模塊、 光譜采集模塊和控制模塊。 輸送模塊是由變頻器和異步電動機控制, 傳輸速度約為每秒過5個鴨梨(約0.2 s·個-1)。 光譜采集模塊是由鹵鎢燈和光纖探頭組成, 光纖探頭安裝在托盤的下方, 與輸送線的距離約為120 mm; 光源布置方式如圖2所示, 由20盞100 W鹵鎢燈組成, 每側10盞等距排列。 控制模塊由PLC控制電磁閥和光電接近傳感器來觸發(fā)光譜儀, 完成對鴨梨樣品的可見-近紅外光譜的采集。
圖1 鴨梨的可見-近紅外光譜在線分選裝置示意圖Fig.1 Schematic diagram of the vis-near infrared spectroscopyonline sorting device for ‘Yali’ pear
圖2 鹵鎢燈的排列俯視圖Fig.2 Arrangement top view of halogen lamp
光譜儀選用美國的QE65Pro型高精度光譜儀Ocean optics INC, 波長范圍為372~1 154 nm。 開機前預熱30 min, 以6.5 mm厚度的聚四氟乙烯白板作為標準參比, 校正光源能量譜; 鴨梨在輸送線上的托盤里的放置方式要求果柄(C)和果蒂(D)的連線方向保持與傳送帶運行方向垂直。
采集可見-近紅外光譜后, 采用傳統(tǒng)的人工切開識別法, 對黑心梨進行破損判別。 切開鴨梨時, 注意切開的部位是垂直于果柄與果蒂連線方向的中部, 即如圖2所示的AB連線方向。 切開后觀察鴨梨果核部位有無黑心癥狀, 對于出現褐色麻點、 整個果核褐變及果肉褐變的情況是否被認定為鴨梨患黑心病, 通過3位長期從事鴨梨種植和銷售的從業(yè)者對鴨梨內部的黑心標準進行評價并綜合得出結論。
kNN算法[9]是通過計算訓練集中的每個樣本與測試集樣本的距離, 通過對距離的排序, 取距離最近的k個點, 這k個樣本中具有最多的那個類別就是測試集樣本的類別。 kNN算法中k值的設定影響著模型的分類精確度,k值選擇過大或過小, 都會降低分類精度, 同時也會造成噪聲增加, 因此k值在選擇時一般遵從低于訓練樣本數的平方根的原則。
NBC通過屬性條件獨立性假設, 假設所有屬性相互獨立[10]。 基于貝葉斯判定準則, 選擇每個樣本x中使后驗概率P(c|x)最大的類別標記, 最優(yōu)分類器為
式(1)中, c屬于類別標記, d為屬性值, xi為x在第i個屬性上的取值。
SVM主要是通過找到最大間隔的劃分超平面, 使得不同類別之間的間隔最大化, 在處理小樣本、 非線性及高維數據等問題中具有一定的優(yōu)勢[11]。 通過間隔的概念, 確定模型的約束參數,SVM的優(yōu)化目標為
式(2)中, n為訓練樣本數, xi為訓練樣本的支持向量, yi表示對應樣本的類別, 取值為+1或-1, w為超平面的法向量, b為偏置向量, c為懲罰因子, ξi為松弛變量。
基于AdaBoost的集成學習可以通過訓練多個獨立的弱學習器來得到泛化性能優(yōu)良的強學習器[12]。 集成學習不僅擁有更好的預測性能, 而且解決了單個學習器容易欠擬合及過擬合的問題。 算法的中心思想是通過改變樣本的權值分布以得到更好的訓練模型。
F-measue和Accuracy作為分類模型的評價指標,F-measue和Accuracy的結果越接近1, 表明分類模型越好。 其中F-measue是由P(查準率或者準確率,Precision)和R(查全率或者召回率,Recall)加權調和平均得出[13]。 混淆矩陣如表2所示。
表2 分類結果混淆矩陣Table 2 confusion matrix for classification result
Precision與 Recall的計算公式如式(3)
對于鴨梨進出口貿易, 希望既要將正常梨盡可能多的挑選出來又要使得挑選出來的鴨梨中正常梨的比例盡可能的高, 即查準率和查全率都需要得到提高。F-measue公式如式(4)
Accuracy指的是正確預測的樣本數占總預測樣本數的比值, 公式如式(5)
鴨梨的可見-近紅外光譜如圖3所示, 從光譜的全波段來看, 正常梨與黑心梨的光譜在695和797 nm左右范圍內, 都存在明顯的吸收峰, 正常梨的能量譜總體上是高于黑心梨的光譜能量, 但也存在部分正常梨的光譜能量低于黑心梨, 而且光譜存在重疊, 沒有一個準確的閾值分割線, 因此不能直接從光譜圖中區(qū)分鴨梨是否黑心。 為了消除可見-近紅外光譜存在的光散射、 基線漂移等問題, 實驗分別采用平滑(Smoothing)、 標準正態(tài)變量變換(standard normal variate, SNV)、 多元散射校正(multiplicative scatter correction, MSC)、 SG一階導數(savitzky golay first-derivative, SG 1st-Der)和小波變換(wavelet transform, WT)等預處理方法增強光譜的特異性, 以便更好地建模分析。
圖3 正常梨與黑心梨的能量譜曲線Fig.3 Energy spectra curve of normal pearand black heart pear
采用主成分分析法(principal components analysis, PCA)對兩種鴨梨樣品光譜的空間分布情況進行分析。 建模集含有120個正常梨, 165個黑心梨, 對其進行主成分分析, 前三個主成分累計貢獻率占99.70%, 表示這3個主成分能夠解釋原始波長變量的99.70%[14]。 圖4所示(PC1, PC2, PC3)為正常鴨梨與黑心鴨梨樣品的前三個主成分分布圖。 圖中黑心梨與正常梨的光譜點相互交叉在一起, 無法區(qū)分, 表明采用可見-近紅外光譜結合PCA方法對鴨梨是否黑心進行定性鑒別具有一定難度, 需要進一步探討區(qū)分黑心梨與正常梨的判別方法。
圖4 正常梨與黑心梨的前三主成分分布圖Fig.4 Distribution of the first three principal components of normal pears and black heart pears
2.3.1 獨立判別模型的構建
采用kNN方法進行建模時, 其核心思想是利用訓練集數據訓練一個kNN分類器, 其中k(預測變量中最近鄰的數量)為5。 計算訓練集中的每個樣本與測試集的歐氏距離, 取距離最近的5個點, 選擇這5個樣本中出現最多的類別標記作為預測結果。 從表3中可知, 經過小波變換預處理的kNN模型訓練集的F-measure和Accuracy最高, 分別為78.98%和82.62%。
表3 不同預處理方法的鴨梨定性識別kNN模型判別結果Table 3 kNN model results of qualitative identification of ‘Yali’ pears with different pretreatment methods
NBC分類方法建模的主要原理是使用具有一定平均值和標準偏差的高斯分布對正常鴨梨與黑心鴨梨兩個類別內的預測變量分布進行建模。 利用訓練集的數據, 估算出基于貝葉斯分布的概率分布參數, 測試集數據根據NBC模型估計出的分布概率參數, 計算出測試集樣本屬于正常梨或黑心梨的先驗概率。 從表4中可知, 鴨梨光譜經過SG一階導數預處理后的NBC模型可達到最好的識別效果, 訓練集的F-measure為80.90%, Accuracy為82.11%。
SVM分類是利用訓練二進制支持向量機分類器建立二分類SVM模型。 使用訓練集和對應的類別標簽訓練的SVM分類器進行二分類, 使用徑向基核訓練SVM分類器, 找到內核函數的比例值。 從表5中可知, 鴨梨光譜經過小波變換預處理后的SVM模型可達到最好的識別效果, 訓練集的F-measure為90.24%, Accuracy為91.58%。
表5 不同預處理方法的鴨梨定性識別SVM模型判別結果Table 5 SVM model results of qualitative identification of ‘Yali’ pears with different pretreatment methods
2.3.2 AdaBoost集成模型的構建
AdaBoost分類方法集成kNN、 NBC和SVM三種分類方法, 設獨立學習器數目為3。 AdaBoost模型的原理如圖5所示, 通過訓練集(黑心梨樣品集的2/3與正常梨樣品集的2/3組成)來訓練kNN學習器, 根據kNN學習器對鴨梨黑心病的判別表現來調整樣本權重, kNN學習器錯誤分類的鴨梨樣本的權重得到提高, 正確分類的鴨梨樣本的權值將被降低[15]; 同理, 基于調整后的鴨梨樣本分布來訓練NBC學習器, 鴨梨樣本權值根據分類結果再一次得到重新分布; 最后, 將調整后的鴨梨樣本作為SVM模型的訓練集。 完成獨立學習器的模型建立后, 通過加權投票法(weighted voting)得到最終的強學習器。
圖5 AdaBoost算法原理Fig.5 AdaBoost algorithm principle
表6所示為不同預處理方法下的AdaBoost模型的訓練集樣品的查準率/查全率的調和平均和正確識別率結果。 從表中可知, 不同的處理方法其分類結果不盡相同, 鴨梨光譜經過小波變換預處理后的AdaBoost模型可達到最好的識別效果, 訓練集的F-measure為91.46%, Accuracy為92.63%。
2.3.3 最優(yōu)分類模型分析
通過模型查準率/查全率的調和平均和正確識別率, 綜合比較kNN模型、 NBC模型、 SVM模型和AdaBoost模型。 表7可以得出, 鴨梨黑心病鑒別最優(yōu)模型是WT-AdaBoost模型, 其測試集分類結果的F-measure為90.91%, Accuracy為92.63%, 模型對測試集樣品預測時的計算時間約為0.12 s, 滿足在線分選要求。 WT-AdaBoost的訓練集(a)與測試集(b)的預測類別(紅色三角形)與實際類別(黑色三角形)比較如圖6 所示, 其中1代表正常梨, -1代表黑心梨, 紅色三角形與黑色三角形重合代表預測正確, 否則預測錯誤(紅色三角形+垂線)。
圖6 鴨梨樣品實際類別與WT-AdaBoost模型 預測類別比較圖Fig.6 Comparison of actual categories and predicted categories in WT-AdaBoost model for ‘Yali’ pear samples
表7 kNN, NBC, SVM和AdaBoost模型測試集預測結果Table 7 KNN, NBC, SVM and AdaBoost modeltest set prediction results
可見-近紅外光譜結合PCA, kNN, NBC, SVM和基于Adaboost的集成學習法建模對鴨梨黑心病進行判別研究, 原始光譜和5 種預處理光譜結合kNN, NBC, SVM和Adaboost方法用于鴨梨黑心病判別模型的建立和優(yōu)化。 實驗結果表明: PCA方法無法在主成分空間將黑心鴨梨與正常鴨梨區(qū)分開來; 小波變換預處理方法結合由kNN, NBC和SVM集成的AdaBoost分類方法建立的分類模型最優(yōu), 訓練集與測試集的F-measure分別為91.46%和90.91%, Accuracy分別為92.63%和92.63%, 且模型對測試集樣品預測時間約為0.12 s, 滿足在線分選要求。 可見-近紅外光譜結合WT-AdaBoost分類方法, 可以實現對鴨梨黑心病的在線檢測。