張玨,田海清,張麗娜,王軻,于洋
1(內(nèi)蒙古農(nóng)業(yè)大學 機電工程學院,內(nèi)蒙古 呼和浩特,010018) 2(內(nèi)蒙古師范大學 物理與電子信息學院,內(nèi)蒙古 呼和浩特,010020)
察哈爾羊肉為內(nèi)蒙古錫林郭勒盟特產(chǎn),其肉色鮮紅,脂肪呈乳白色,具有肌纖維細,口感細嫩、無膻味,是低脂肪高蛋白健康食品,深受消費者喜愛。新鮮度是衡量生鮮肉食用要求的客觀標準,可綜合反映產(chǎn)品營養(yǎng)性、安全性的可靠程度。傳統(tǒng)新鮮度檢測方法主要通過感官評價、理化檢測或微生物實驗方法確定[1],感官評價依據(jù)專業(yè)人員對肉品的色澤、氣味等特性做出綜合評定,檢測結(jié)果存在主觀性強,可重復性差,且測量誤差大等缺陷。理化檢測或微生物實驗法通常以pH值、揮發(fā)性鹽基氮(total volatile basic nitrogen,TVB-N)和菌落總數(shù)(total viable counts,TVC)等為主要檢測指標,該方法準確度高、可靠性好,但操作過程繁瑣,耗時費力。為提高檢測效率,研究者們依據(jù)理化指標提出了一些肉品新鮮度的快速檢測方法。FUNAZAKI等[2]發(fā)現(xiàn)L*值、a*值與原料肉的存放時間顯著相關,提出利用色彩色差計L*、a*、b*系統(tǒng)檢測原料肉的新鮮度。RUSSELL等[3]依據(jù)蛋白質(zhì)分解產(chǎn)生游離氨基化合物與布三酮發(fā)生變色反應,提出借助布三酮顯色反應法判定肉品新鮮度。新鮮、次新鮮和變質(zhì)與布三酮溶液反應后分別呈現(xiàn)微藍色、淺藍色和深藍色。栗紹文等[4]采用過氧化物酶試紙法檢測肉品新鮮度,浸液在數(shù)秒內(nèi)呈現(xiàn)藍色為新鮮肉,3 min內(nèi)無顏色反應則被判定為不新鮮肉。上述檢測方法檢測速度快、操作相對簡便,但檢測過程對樣本有損、受環(huán)境條件的影響較大,且難以準確地反映肉品的新鮮度狀態(tài)。
肉品腐敗過程中,蛋白質(zhì)、脂肪和水分含量等營養(yǎng)成分的變化會影響光譜的吸收、散射等光學特性。因此,透過有機物的光學特性可分析肉品內(nèi)部營養(yǎng)成分及品質(zhì)變化。高光譜成像技術以其空間信息與內(nèi)部組分信息相結(jié)合的獨特優(yōu)勢,在生鮮肉營養(yǎng)成分分析、安全品質(zhì)鑒定、肉色及新鮮度檢測等方面得到了廣泛應用[5]。CRICHTON等[6-7]基于高光譜成像技術分別對pH值和CIELAB顏色空間開展了牛肉新鮮度的檢測研究,取得了較好的研究效果。HE等[8-9]利用高光譜成像技術對鮭魚等養(yǎng)殖鮮魚表面乳酸菌、假單胞菌數(shù)分布和腐敗程度進行了深入的研究。BARBIN等[10]利用近紅外高光譜系統(tǒng)研究了新鮮豬肉表面微生物污染程度,分別將新鮮豬肉置于0 ℃和4 ℃的低溫環(huán)境貯藏21 d,借助PLSR模型分析TVC和嗜冷菌平板計數(shù)含量,模型的分析精確度可達到86%。
上述研究表明,高光譜成像技術在肉類檢測方面有很大的應用潛力,但目前多見于對豬肉、牛肉等肉類的相關報道,在羊肉新鮮度及質(zhì)量分級方面的研究應用還相對較少且有待更深層次的研究。本文利用高光譜成像系統(tǒng)采集羊肉反射光譜信息,并采用2次S-G(Savitzky-Golay,簡稱S-G)平滑方法對羊肉反射光譜進行預處理。借助SPA法提取特征波長并建立基于反向人工神經(jīng)網(wǎng)絡(back propagation artificial neural network,BPANN)和分類回歸決策樹(classification and regression trees,CART)算法的羊肉新鮮度判別模型,并分析CART分類算法主要參數(shù)對分類精度的影響并通過參數(shù)尋優(yōu)以優(yōu)化CART模型。研究基于高光譜數(shù)據(jù)源的CART分類模型在羊肉新鮮度等級分類方面的適用性,以期為高光譜遙感技術在肉品新鮮度診斷方面提供參考。
試驗所用樣本為察哈爾羊,取羊酮體里脊肉置于低溫冷藏箱運至實驗室。在無菌操作臺上將鮮羊肉剔除表面脂肪和肌膜,盡量保持樣本表面平整,用無菌刀分割成84塊,尺寸大小約為45 mm×45 mm×20 mm,自封保鮮袋密封后逐個編號,整齊無擠壓地擺放在貯藏溫度為4 ℃的冰箱環(huán)境中貯藏1~12 d。每隔24 h取出7個樣本,于室溫下靜置30 min后,用濾紙吸收表面水分后對樣本進行光譜采集。按照GB5009.228—2016[11]測定樣本TVB-N含量并進行新鮮度類別標定,根據(jù)國家標準[12]和彭彥昆等[13]研究成果將羊肉新鮮度劃分為3個等級,TVB-N≤15 mg/100g認定為“新鮮”,15 mg/100g
試驗采用高光譜成像系統(tǒng),臺灣五鈴光學(ISUZU OPTICS),包括高光譜成像儀(ImSpector N25E),焦平面陣列相機(Xeva-FPA-2.5-320)、2個150W的鹵素燈、電控位移控制臺、暗箱和計算機等部件。高光譜成像儀光譜范圍為935~2 539 nm,光譜分辨率為8 nm。
數(shù)據(jù)采集前,打開光源和鏡頭蓋,預熱機器30 min。預實驗確定系統(tǒng)參數(shù),設置如下:曝光時間2.1 ms,物鏡高度為40 cm,電控位移平臺速度22.9 mm/s,起點和終點位置分別為165 mm和235 mm,圖像分辨率選擇800像素×428像素。通過高光譜圖像采集軟件采集樣本高光譜圖像。先采集反射率為99%標準白板得到全白標定圖像W,然后封閉鏡頭采集全黑標定圖像D,最后進行羊肉樣本數(shù)據(jù)采集。為減弱攝像頭中傳感器暗電流以及光源不穩(wěn)定的影響,確保光譜數(shù)據(jù)的準確性,在數(shù)據(jù)處理前對原始高光譜圖像按照公式(1)進行黑白校正[14]:
(1)
式中:R為黑白校正后樣本光譜反射率;Is為原始樣本反射的光譜強度;ID標準校正黑板反射的光譜強度;IW為標準校正白板反射的光譜強度。
避開羊肉結(jié)締、筋腱及反光嚴重的部位,將左上、左下、右上、右下、中間5個代表性位置作為感興趣區(qū)域(region of interesting,ROI),每個區(qū)域大小設定為20像素×20像素,計算ROI內(nèi)所有像素的平均值得到樣本平均反射光譜,ROI選取及樣本反射光譜提取過程如圖1所示。除去首尾信噪比較低的波段(935~973 nm和2 457~2 539 nm),選取980~2 450 nm的光譜數(shù)據(jù)供下一步研究使用。
圖1 ROI選取及樣本反射光譜提取
Fig.1 ROI selection and sample reflection spectrum extraction for sample
BP人工神經(jīng)網(wǎng)絡(back propagation artificial neural network,BPANN)[15]是一種根據(jù)誤差反向傳播法訓練的多層前饋網(wǎng)絡,網(wǎng)絡拓撲由輸入層、隱含層和輸出層組成。通過預測誤差反向傳播來調(diào)整網(wǎng)絡權值和閾值,使誤差函數(shù)沿相反的梯度方向移動,從而使BPANN的輸出值不斷逼近期望值,直到網(wǎng)絡的輸出誤差降低到設定值或者計算次數(shù)達到系統(tǒng)預設值為止。本研究選用3層結(jié)構的BP-ANN模型建立羊肉新鮮度判別模型,模型結(jié)構見圖2。k1,k2,…,ki為網(wǎng)絡的輸入層節(jié)點,r1,r2,…,rp為隱含層節(jié)點,y為神經(jīng)網(wǎng)絡的輸出值。輸入層、隱含層、輸出層各神經(jīng)元分別經(jīng)權值、閾值及傳遞函數(shù)連接公式如公式(2)和公式(3)所示:
(2)
(3)
式中:n為輸入層神經(jīng)元個數(shù);p為隱含層神經(jīng)元個數(shù);q為輸出層神經(jīng)元個數(shù);f1、f2分別為隱含層和輸出層的激活函數(shù);wnp為第n個輸入神經(jīng)元到第p個隱含神經(jīng)元的權值;wpq為第p個隱含神經(jīng)元到第q個輸出神經(jīng)元的權值;zp為輸入層到隱含層的閾值,zq為隱含層到輸出層的閾值;yq為神經(jīng)網(wǎng)絡輸出。
圖2 羊肉新鮮度BPANN網(wǎng)絡預測模型
Fig.2 BPANN network prediction model for lamb freshness
決策樹[16]是數(shù)據(jù)挖掘中一種常用的分類方法,由根節(jié)點、內(nèi)部節(jié)點、分支及葉節(jié)點組成。根節(jié)點表示一個待分類的數(shù)據(jù)類別或?qū)傩?,每個葉子節(jié)點代表一種分類結(jié)果。整個決策的過程從根節(jié)點開始,從上到下,根據(jù)最優(yōu)劃分屬性選擇結(jié)果將實例劃分至相應節(jié)點,依次判斷,直至實例被劃分至葉節(jié)點而給出分類結(jié)果。CART算法為一種非參數(shù)數(shù)據(jù)分類與回歸方法,生成的決策樹是結(jié)構簡潔的二叉樹形式。由于解釋性強且分類效率高,該算法在通信運營商客戶預測、多光譜影像分類、空氣質(zhì)量評價和交通擁堵檢測[17-20]等方面有較好的應用效果。利用CART方法進行數(shù)據(jù)分類時,首先遞歸劃分自變量區(qū)域,并在這些區(qū)域上確定預測的概率分布情況。劃分區(qū)域標準是CART算法的核心,本文通過Gini指數(shù)選擇最優(yōu)解釋變量決定最佳二分值的切分點。
在分類問題中,假設樣本數(shù)據(jù)分為K類,樣本點屬于第k類的概率為pk,則概率分布的Gini指數(shù)定義如公式(4)所示:
(4)
對于二分類問題,若樣本點屬于第1個類的概率是p,則概率分布的Gini指數(shù)見公式(5):
Gini(p)=2p(1-p)
(5)
給定樣本集合D的Gini系數(shù)見公式(6):
(6)
若給定分裂屬性A,其某個取值將數(shù)據(jù)集D分割為D1和D2兩部分,D1和D2見公式(7):
D1={(x,y)∈D|A(x)=α},D2=1-D1
(7)
則分裂屬性A的Gini指數(shù)表達式見公式(8):
(8)
式中:K為數(shù)據(jù)集D的類別數(shù);|Ck|為屬于第k個類別樣本的數(shù)量;|D|為數(shù)據(jù)集D的樣本總量。
Gini指數(shù)反映數(shù)據(jù)集中的純度,其值越小說明分類純度越高。CART算法取Gini指數(shù)值最小的解釋變量做出劃分,用準確率來判斷模型的辨識度。
CART算法分類模型構建步驟如下:
(1)設節(jié)點的校正集為D,對分裂屬性A的任意可能取值a,根據(jù)樣本點對A=a的分類為“是”或“否”,將集合D分割為D1和D2兩部分,并計算現(xiàn)有解釋變量Gini指數(shù)值;
(2)在所有可能的分裂屬性A中,選擇Gini值最小的屬性作為最優(yōu)特征,則對應切分點a確定為最佳切分位置;
(3)依據(jù)最優(yōu)特征變量和最佳切分點,從現(xiàn)結(jié)點生成2個子結(jié)點,將集合D的數(shù)據(jù)分配到2個子結(jié)點中;
(4)對2個子結(jié)點遞歸地調(diào)用(1)~(3),直到其滿足停止條件;
(5)生成CART模型。
羊肉樣本原始反射光譜曲線如圖3-a所示。光照強度、傳感器靈敏度和環(huán)境溫度等因素會影響光譜信息應用的準確性和有效性[21],致使原始光譜曲線包含較多毛刺。因此,對樣本反射光譜采用2次S-G平滑預處理,先采用11點S-G對較大噪聲波段進行局部平滑,其他波段保持不變,得到初步濾波結(jié)果,然后采用7點S-G進行整體平滑,最大程度上保留了光譜細節(jié)信息。預處理后光譜曲線如圖3-b所示。由圖3-b可知,光譜預處理后較原始光譜曲線更為平滑,減弱了系統(tǒng)噪聲并提高了信噪比。
a-原始光譜;b-S-G預處理后光譜
圖3 預處理前后樣本反射光譜曲線
Fig.3 Reflection spectrum before and after pretreatment for sample
考慮到全波段光譜信息量大且存在數(shù)據(jù)冗余,這會降低模型計算效率,且不便于高光譜測量平臺移植。研究選擇采用連續(xù)投影法方法[22]對全波段高光譜數(shù)據(jù)進行特征波長選擇。設定特征波長個數(shù)范圍為5~30,步長為1,根據(jù)圖4-a所示結(jié)果,隨著特征波長數(shù)目的增加,(root mean squared error,RMSE)逐漸減小,當計算波長數(shù)為12時均方根誤差RMSE取得最小值3.39,之后曲線變化平緩,考慮到較多的輸入量會增加模型的復雜度,因此,依據(jù)RMSE最小原則選擇如圖4-b所示的1 024、1 112、1 194、1 213、1 440、1 497、1 648、1 685、1 899、2 131、2 175、2 363 nm共12個特征波長。分析認為,羊肉新鮮度主要與水分、蛋白質(zhì)和脂肪等營養(yǎng)成分的分解程度有關。肉類腐敗過程中,蛋白質(zhì)、脂肪、糖類等化學成分改變的同時伴隨組織結(jié)構中C—H、O—H、N—H等含氫基團的變化,而肉品光譜特征信息與其這些含氫基團的倍頻和合頻吸收有關,透過肉品光譜則可分析肉類化學成分的變化規(guī)律。由于組織結(jié)構中分子所含基團種類多且差異較大,且不同基團在近紅外譜區(qū)的吸收位置及吸收強度各異,因此不同組分的分子基團都對應了特定的波長吸收組合。蛋白質(zhì)主要包含—CHn、—NH等基團,1 021和1 057 nm附近為N—H基團伸縮二級倍頻;1 109 nm為N—H基團的三倍頻特征吸收帶;1 074 nm附近存在N—H基團伸縮振動二級倍頻,1 500 nm附近為N—H基團一級倍頻,1 192 nm為C—H基團三倍頻吸收帶[23-24]。脂肪主要含—OH、—CHn等基團,1 207 nm處的吸收峰為C—H基團伸縮二級倍頻;1 500 nm附近為N—H基團伸縮一級倍頻;1 211 nm處的相對弱峰為C—H基團伸縮振動二級倍頻;1 370和1 640 nm為CH3基團伸縮一級倍頻吸收帶[25-27]。水分主要含—OH基團,1 400~1 500 nm為O—H伸縮一級倍頻吸收帶,在974 nm和1 440 nm附近存在強吸收峰,分別為水分子O—H伸縮振動二級和一級倍頻[28-29]。通過上述波長下的光譜信息可獲得大量肉品品質(zhì)的相關信息,也為利用特征波長下的光譜信息分析羊肉新鮮度提供了理論依據(jù)。
a-解釋變量個數(shù)對應RMSE的變化;b-SPA選取最優(yōu)特征波長
圖4 SPA法選取特征波長過程
Fig.4 Characteristic spectral variables by SPA
2.3.1 數(shù)據(jù)集劃分
84個羊肉樣本中,去掉4個明顯離群樣本,共得到80個有效樣本。按照TVB-N測定濃度值排序,采用隔三選一法[30]確定數(shù)據(jù)集,56個樣本為校正集,24個為預測集。校正集和預測集差異性分析結(jié)果表明,校正集TVB-N的平均值為17.10 mg/100g,標準偏差為7.84 mg/100g,TVB-N的變化范圍為8.15~38.63 mg/100g;預測集TVB-N的平均值為18.16 mg/100g,標準偏差為8.71 mg/100g,TVB-N的變化范圍為8.63~40.08 mg/100g。樣本集中新鮮肉31個、次鮮肉26個、變質(zhì)肉23個,表1為羊肉新鮮度類別劃分結(jié)果。
表1 不同新鮮度類別的樣本集劃分Table 1 The sample set for different freshness classes
2.3.2 BPANN模型
將SPA法優(yōu)選的12個特征波長作為BPANN網(wǎng)絡模型輸入?yún)?shù),校正集樣本類別作為模型輸出參數(shù)。隱含層節(jié)點個數(shù)根據(jù)公式(9)確定:
(9)
式中:n為輸入層節(jié)點個數(shù);m為輸出層節(jié)點個數(shù);a的取值范圍為1~10。
模型中,輸入量為12個特征波長,n=12;輸出量為樣本新鮮度類別,m=1。因此,隱含層節(jié)點個數(shù)L的取值為5~14。設定BPANN 模型訓練誤差為0.001,網(wǎng)絡訓練次數(shù)為2 000,多次試驗調(diào)整網(wǎng)絡結(jié)構,確定模型最佳參數(shù)如下:隱含層激活函數(shù)為logsig,輸出層激活函數(shù)為tansig,訓練函數(shù)為traingd,隱含層節(jié)點數(shù)為6。根據(jù)以上網(wǎng)絡參數(shù),建立拓撲結(jié)構為12∶6∶1的3層BPANN模型。
2.3.3 CART模型
通過調(diào)整決策樹的最大深度(max depth, MD)防止“小樣本”數(shù)據(jù)過擬合[31],設定葉子節(jié)點包含的最小樣本數(shù)為2,分裂所需最小樣本數(shù)為1,緩慢提高MD值訓練模型,并計算預測集評分數(shù)據(jù),預測集準確率隨決策樹深度的變化關系如圖5所示。當MD值為7時建立決策樹獲得最高的分類精度,預測集分類得分為0.916 7,決策樹結(jié)構如圖6所示。由圖6可知,決策樹Gini指數(shù)由初始計算值0.580經(jīng)多次特征屬性分裂后,到第7層決策樹Gini指數(shù)降為0,完成決策樹構建。
圖5 分類得分隨決策樹深度變化關系
Fig.5 The relationship between the classification score and the depth of decision tree
圖6 CART模型結(jié)構圖
Fig.6 Structure chart of CART model
為比較BPANN模型和CART模型分類效果,分別以SPA法提取的12個特征波長分別作為BPANN模型、CART模型的輸入變量,羊肉新鮮度類別作為輸出量,建立羊肉新鮮度判別模型,并對模型預測效果進行驗證。
研究表明,BPANN和CART模型校正集的平均分類準確率均為100%,CART和BPANN模型預測集的測試分類結(jié)果如圖7所示。對于預測集的24個樣本,BPANN模型有4個樣本被誤判,其中第8個樣本由新鮮被誤判為次新鮮,第11和第18個樣本由次新鮮被誤判為新鮮,第20個樣本由變質(zhì)被誤判為次新鮮;CART模型有3個樣本發(fā)生誤判,其中第6個樣本由新鮮被誤判為次新鮮,第18個樣本由次新鮮被誤判為新鮮,所有變質(zhì)樣本判別全部正確。綜上所述,BPANN模型預測集平均分類準確率為83.33%,CART模型預測集平均分類準確率為91.67%,相比BPANN模型,CART模型的平均分類準確率提高了10.01%。
a-BPANN;b-CART
圖7 BPANN和CART模型測試分類圖
Fig.7 Classification
Figures by BPANN and CART model
BPANN、CART模型的新鮮度分類統(tǒng)計結(jié)果如表2所示,BPANN模型對預測集“新鮮”、“次新鮮”、“變質(zhì)”3個新鮮度級別樣本的識別率分別為88.89%、75%和85.71%,CART模型的識別率分別為88.89%、87.50%和100%。相比BPANN模型,CART模型對每個新鮮度級別的識別率分別提高了0%、16.67%和16.67%。上述研究表明,CART模型分類更加準確且穩(wěn)定性更好,發(fā)生誤判主要集中在相鄰新鮮度等級之間,造成類別誤判的原因可能是相鄰新鮮度的樣品TVB-N數(shù)值較為接近,類間差異較小所致。該模型的預測精度也略高于范中建等[32]利用SPA法提取特征波長建立的羊肉新鮮度BP神經(jīng)網(wǎng)絡判別模型,在一定程度上反映出CART算法建模的有效性。分析認為,BPANN算法需要反復調(diào)整網(wǎng)絡結(jié)構參數(shù),從而容易過度訓練且發(fā)生“過擬合”,反而降低了模型的泛化能力。CART算法更加注重對光譜信息深層次分析和挖掘且針對性更強,分類精度較BPANN模型明顯提高。該算法不是用一個決策規(guī)則把多個類別一次分開,而是綜合每個子集里被評價為分類能力最好的屬性變量進行逐級劃分,從而在一定程度上提高了模型的泛化能力,較好地求解復雜的多輸入多分類問題。
表2 模型分類結(jié)果統(tǒng)計Table 2 Statistics of classification results for model
為實現(xiàn)對羊肉新鮮度的快速、無損檢測,本研究采集不同存儲天數(shù)羊肉樣本近紅外高光譜圖像,以SPA法優(yōu)選的12個特征波長為自變量,分別構建羊肉新鮮度BPANN和CART算法的判別模型。與BPANN模型相比,CART模型具有更高的精確度與魯棒性,可以很好地區(qū)分羊肉的“新鮮”、“次新鮮”、“變質(zhì)”3個新鮮度類別,表明高光譜成像技術在羊肉新鮮度判別方面具有良好的應用潛力。