於海明 徐佳琪 劉浩魯 劉 超 張大成 陳坤杰
(1.南京農(nóng)業(yè)大學(xué)工學(xué)院, 南京 210031; 2.農(nóng)業(yè)農(nóng)村部南京農(nóng)業(yè)機(jī)械化研究所, 南京 210014)
豬肉是我國居民的主要消費(fèi)肉品,2016年的總消費(fèi)量達(dá)到5.27×107t,位居世界第一。我國生豬養(yǎng)殖規(guī)模較小,屠宰較為分散。有不法分子采用宰殺前或者宰殺后給豬肉注水的方式獲得非法利益[1]。當(dāng)過多水分注入到豬的體內(nèi)之后,會嚴(yán)重影響豬肉品質(zhì),進(jìn)而危害消費(fèi)者健康。因此,必須對注水肉進(jìn)行檢測識別,以維護(hù)市場秩序、保證肉品的安全。
目前,傳統(tǒng)的注水肉檢測方法主要有感官檢驗法、試紙檢驗法和實驗室檢驗法,普遍存在耗費(fèi)時間長、檢測效率低、肉品會受到破壞且識別準(zhǔn)確率不高等問題[2]。因此,研究注水肉的快速、準(zhǔn)確、經(jīng)濟(jì)且無損的檢測方法具有實際意義。近年來,高光譜分析技術(shù)廣泛應(yīng)用于農(nóng)業(yè)工程諸多領(lǐng)域[3-7],因其具有分析速度快、不破壞樣本、操作方便等特點,已成為無損檢測技術(shù)的重要方向。一些學(xué)者通過高光譜成像技術(shù)對肉品的含水率、蛋白含量、脂肪含量、嫩度和新鮮度等進(jìn)行定量和定性分析[8],也有學(xué)者將高光譜分析技術(shù)用于肉品表面污染程度和細(xì)菌總數(shù)的安全評價等方面[8]。但利用高光譜分析技術(shù)進(jìn)行注水豬肉的檢測識別,目前還未見研究報道。
本文利用358~1 021 nm波段的高光譜成像系統(tǒng),采集正常豬肉和注水豬肉的光譜信息,基于光譜信息研究注水肉分類識別模型,以實現(xiàn)對注水豬肉進(jìn)行快速精準(zhǔn)識別。
選擇當(dāng)天宰殺的冰鮮新淮豬里脊肉作為試驗樣本,用保鮮袋包裝好后置于實驗室冷藏柜保存。試驗前,先切去肉品表面脂肪和肌膜,將每個樣本切成質(zhì)量大約100 g的方形肉塊,共計84個,其中45個樣本使用規(guī)格為5 mL的注射器從豬肉樣本的中心和4個側(cè)面向肉內(nèi)注入不同量水分,注射完畢后,將樣本放入保鮮袋密封,放在室溫(20℃)下靜置2 h左右,使水分在肉塊中擴(kuò)散,以保證肉塊各個部位的含水率均勻相同,用于后續(xù)試驗。其余39個為正常肉樣本,作為對照。
采用Hyper SIS 型高光譜成像儀進(jìn)行樣本的光譜采集,光譜儀主要技術(shù)參數(shù)如表1所示[9]。
表1 高光譜成像儀技術(shù)參數(shù)Tab.1 Parameters of high spectral image
參照文獻(xiàn)[10-12]方法,在每一次測量開始之前,先進(jìn)行高光譜儀預(yù)熱,再利用黑白板進(jìn)行圖像校正,公式為
(1)
式中I——經(jīng)過白板校正后圖像反射率
I0——初始圖像反射率
Ia——黑板圖像反射率
Iw——白板圖像反射率
光譜采集時是將整塊肉樣本都進(jìn)行儀器掃描,因為不同部位的肉其光譜參數(shù)值不同,為了能夠避開被測樣品的脂肪和結(jié)締組織區(qū)域,通過ENVI 5.1軟件,采用人工手動工具去除脂肪和結(jié)締組織,并將脂肪和結(jié)締組織以外的所有區(qū)域都設(shè)為感興趣區(qū)域(Region of interest,ROI),這樣感興趣區(qū)域內(nèi)得出的平均光譜參數(shù)值更具有代表性,如圖1所示。
圖1 豬肉樣本感興趣區(qū)域提取Fig.1 Extraction of ROI from original pork samples
為剔除多余信息、降低高光譜數(shù)據(jù)維數(shù),采用回歸系數(shù)權(quán)重法進(jìn)行特征波長提取[13]。該方法是根據(jù)波長與含水率之間的相關(guān)性,將回歸系數(shù)作為選擇波長的指標(biāo),通過給出對應(yīng)波長點在模型中重要性的近似度量[14]來確定特征波長,回歸系數(shù)公式為
(2)
(3)
(4)
式中m——波長的點數(shù)
n——校正集的樣品數(shù)
xi,j——光譜參數(shù)yi——含水率
通過傅里葉變換[15],對高光譜曲線進(jìn)行頻譜分析,以提取高光譜曲線的頻譜特征。對于連續(xù)波長信號f(t),進(jìn)行傅里葉變換
(5)
式中t——時間ω——頻域
(6)
通過式(6)可以計算出任意頻點的傅里葉變換值,假設(shè)F(ω)的主要取值區(qū)間位于[ω1,ω2],要計算區(qū)間均勻抽樣的k個值,則有
(7)
其中
式中 Δω——頻域抽樣間隔[16]
1.6.1支持向量機(jī)模型
支持向量機(jī)(SVM)是在最小結(jié)構(gòu)風(fēng)險的理論基礎(chǔ)上來對學(xué)習(xí)機(jī)的學(xué)習(xí)能力進(jìn)行改良的算法,其決策規(guī)則是使用一定的訓(xùn)練樣本得到的,能夠使單個的預(yù)測集有較高的準(zhǔn)確性。圖2(圖中x表示輸入信息)為SVM網(wǎng)絡(luò)構(gòu)造,其主要原理是利用SVM核函數(shù)把樣品的光譜信息投射到高維特性的空間,在這種特殊空間中建造出有最大分類間隔特點的超平面,進(jìn)而精確地區(qū)分出類別不同的樣品,實現(xiàn)分類的要求[17]。
圖2 支持向量機(jī)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.2 Schematic of support vector machine network structure
1.6.2神經(jīng)網(wǎng)絡(luò)分類法
人工神經(jīng)網(wǎng)絡(luò)算法可以對任何正態(tài)的、隨機(jī)的數(shù)據(jù)進(jìn)行分析與推算[18]。圖3為模擬神經(jīng)細(xì)胞結(jié)構(gòu),該模型可對非線性的映射關(guān)系進(jìn)行闡述。
圖3 神經(jīng)元結(jié)構(gòu)模型Fig.3 Neuron structure model
圖3中,x1,x2,…,xn是輸入信息。a1,a2,…,an表示互聯(lián)的強(qiáng)度,也就是權(quán)值。經(jīng)過權(quán)值與輸入信息的計算,得到神經(jīng)細(xì)胞的輸入,比較輸入與閾值θi,利用作用函數(shù)h來進(jìn)行轉(zhuǎn)換,最后產(chǎn)生輸出信息yi。神經(jīng)元的輸入-輸出公式為
yi=h(aijxj+θi)
(8)
采用誤差矩陣即混淆矩陣對分類模型進(jìn)行評價。它通過對已經(jīng)進(jìn)行歸類的某種類型樣品數(shù)量與實際記錄的這個類型樣本數(shù)量進(jìn)行比較的方法,來對模型的分類結(jié)果進(jìn)行評價,適合對樣品分類的準(zhǔn)確度進(jìn)行測評。通過模型進(jìn)行分類而產(chǎn)生的類別信息被當(dāng)作混淆矩陣中的行,實際的數(shù)據(jù)信息被當(dāng)作混淆矩陣中的列,表2為典型的混淆矩陣的形式。
表2 混淆矩陣Tab.2 Confusion matrix
表2中,大小為m×m的方陣是混淆矩陣的主體部分,m代表高光譜圖像上物體類別的數(shù)量,Xi,j指的是在混淆矩陣第i行第j列的樣本數(shù)量,Xi+指的是被劃分為類型i的樣本總個數(shù),X+j指的是在實際數(shù)據(jù)里類型j的樣本總個數(shù)。
生產(chǎn)者精度(Product’s accuracy, PA)指特定類別中被正確歸類的樣本數(shù)量與此類別的總個數(shù)之比;用戶精度(User’s accuracy, UA)指樣品歸類完成后,在特定類別中被正確歸類的樣本數(shù)量與分為此類別的總數(shù)量之比[19],其計算方程為
(9)
(10)
總體分類精度[20](Overall accuracy,OA)是指分類結(jié)果中被正確分類的樣本數(shù)與各類別樣本總數(shù)的比值,反映了分類結(jié)果與真實參考類型一致的概率。由混淆矩陣中主對角元素和總體樣本的個數(shù)N計算得到,公式為
(11)
按上述方法對每一個樣本進(jìn)行高光譜掃描,圖4為所有樣本感興趣區(qū)域(ROI)的反射率光譜曲線。為更清晰地對注水肉與正常肉光譜進(jìn)行觀察和分析,分別計算并繪制出注水肉和正常肉的平均反射光譜曲線,結(jié)果如圖5所示。
圖4 樣本的反射光譜曲線Fig.4 Reflectance spectrum of sample
圖5 平均光譜曲線Fig.5 Average spectral curves
從圖4可以觀察到,雖然注水肉和正常肉在358~1 021 nm波段內(nèi)有著相似的曲線趨勢,都是在370、480、680、810 nm附近有顯著的波峰。但從圖5可以看出,二者之間也有十分明顯的區(qū)分性,即總體而言,注水肉的反射率要明顯高于正常肉的反射率。這很可能是由于注水肉的含水率高,造成反射強(qiáng)度大。由于含水率的差異性,光譜曲線呈現(xiàn)出顯著的差異性,為實現(xiàn)通過光譜對注水肉進(jìn)行識別提供了科學(xué)依據(jù)。
采用相關(guān)系數(shù)權(quán)重法進(jìn)行特征波長提取,得到波長與相關(guān)系數(shù)的變化曲線如圖6所示。
圖6 相關(guān)系數(shù)隨波長變化曲線Fig.6 Regression coefficient diagram
信息含量多的部分多表現(xiàn)在各波段對應(yīng)的相關(guān)系數(shù)絕對值大的部分,因此,選擇相關(guān)系數(shù)曲線的極大值點為特征波長點,得到40個特征波長,分別為359、366、368、370、388、392、396、405、408、507、511、540、567、700、702、706、711、715、718、720、727、730、740、784、786、789、807、810、813、814、816、819、821、834、866、918、1 006、1 009、1 013、1 018 nm。
對每個樣本數(shù)據(jù)采用多元散射校正方法預(yù)處理后進(jìn)行頻譜分析,計算出每個樣本的頻譜特征參數(shù),得到正常豬肉和注水豬肉兩種肉類的頻譜圖如圖7所示。
圖7 頻譜分析圖Fig.7 Spectral analysis diagram
從兩幅頻譜分析圖可以看出,正常肉的幅值主要在0.2~0.8之間,注水肉的幅值則主要分布在0.2~0.5之間,二者之間有一定的差異,但差別并不明顯。
將358~1 021 nm之間的616個波長進(jìn)行等間隔分段,以28個波長為1段,一共分為22段。然后進(jìn)行每一段波長頻譜特征參數(shù)的最小值、最大值、平均值和標(biāo)準(zhǔn)差的統(tǒng)計計算,得到22個波段內(nèi)的88個特征參數(shù)。再將圖7中每個樣本在各個頻率段內(nèi)的幅值進(jìn)行求和,得到每個樣本的頻譜特征參數(shù)。所有特征集合如表3所示。
表3 樣本的特征集合Tab.3 Set of features of sample
2.3.1支持向量機(jī)法
將試驗樣本按3∶1的比例分為標(biāo)準(zhǔn)訓(xùn)練集和測試集。分別將616個全光譜、40個特征光譜和88個頻譜特征參數(shù)輸入SVM模型,對模型進(jìn)行訓(xùn)練后,再以測試集對模型進(jìn)行驗證,計算出分類精度,結(jié)果如表4所示。
表4 SVM模型的識別結(jié)果Tab.4 SVM model recognition results
從表4可以看出,基于頻譜特征參數(shù)建立的支持向量機(jī)分類識別模型具有最優(yōu)的分類識別效果,正確識別率可達(dá)96.4%。而采用全光譜的分類效果最差,正確識別率只有84.5%。
2.3.2神經(jīng)網(wǎng)絡(luò)模型分類結(jié)果
由于樣本數(shù)量不足,采用K折交叉驗證法BP神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練和驗證,用K個結(jié)果的平均值來衡量模型的好壞。本試驗將樣本隨機(jī)分成7份,每次選擇6份作為訓(xùn)練集,剩下的1份作為測試集,共進(jìn)行7次輪回后算出平均識別結(jié)果作為該模型的最終識別結(jié)果,如表5所示。
從表5可以看出,不論是全光譜輸入、特征光譜輸入還是頻譜特征輸入,BP神經(jīng)網(wǎng)絡(luò)模型都有較好的分類結(jié)果,其中,基于頻譜特征參數(shù)建立的BP神經(jīng)網(wǎng)絡(luò)分類識別模型具有最優(yōu)的分類識別效果,正確識別率可達(dá)98.8%,明顯優(yōu)于支持向量機(jī)分類識別模型。
表5 BP神經(jīng)網(wǎng)絡(luò)模型識別結(jié)果Tab.5 BP model recognition results
(1)在3種基于高光譜分析的注水肉識別方法中,利用頻譜特征分析進(jìn)行注水肉識別的效果優(yōu)于其他處理方法,說明頻譜特征是區(qū)別注水肉和正常肉的主要特征。
(2)在2個分類識別模型中,與SVM模型的分類精度相比,BP模型的識別效果更好,以頻譜特征參數(shù)為輸入的BP神經(jīng)網(wǎng)絡(luò)模型,可以達(dá)到最佳分類識別效果。因此,可采用基于頻譜特征參數(shù)的BP模型對注水豬肉進(jìn)行快速檢測識別。