劉翠玲 胡 瑩 吳靜珠 邢瑞芯 王少敏
(1.北京工商大學計算機與信息工程學院, 北京 100048;2.北京工商大學食品安全大數(shù)據(jù)技術(shù)北京市重點實驗室, 北京 100048)
花生富含大量的蛋白質(zhì)、脂肪、糖類以及鈣、磷、鐵礦物元素等,可直接食用或者進行烘培等后續(xù)加工后食用,已成為人們喜愛的休閑食品;同時花生也是食用油的重要原材料之一,豐厚的營養(yǎng)價值使花生成為人們生活中的必需品[1]。但收獲后的花生在儲藏期間易受到溫、濕度的影響而引起花生霉變[2]。霉變花生極有可能含強致癌物質(zhì)——黃曲霉素,快速識別并分離霉變花生可從源頭上阻止其進入食物鏈,降低人類攝入黃曲霉素的風險[3]。因此,對花生的霉變檢測尤為重要。目前,絕大多數(shù)花生生產(chǎn)企業(yè),主要依靠人工觀測判斷花生是否發(fā)生霉變,該檢測方法易受主觀心理、視覺疲勞等因素影響[4]。在農(nóng)業(yè)行業(yè)標準NY/T 1068—2006和國標GB/T 5494—2008中,規(guī)定了對于花生中霉素的檢驗,采用同位素稀釋液相色譜-串聯(lián)質(zhì)譜法、酶聯(lián)免疫吸附法等檢測方法。這些傳統(tǒng)檢測方法具有前處理復雜、費時費力,且易對樣品造成破壞、產(chǎn)生二次污染等問題[5-6]。因此,亟需尋找一種可靠、快速、便捷的方法來檢測花生仁的霉變程度。
光譜檢測技術(shù)具有綠色環(huán)保、耗時短、成本低、可靠性高的特點,彌補了傳統(tǒng)理化檢測方法的不足[7-9],近年來在食品檢測領域發(fā)展較快。HIRANO等[10]通過分析花生油脂短波近紅外(700~1 100 nm)的透射比對表面良好、內(nèi)部霉變的花生進行了檢測,但該方法對樣本具有破壞性,且油脂提取程序相對繁瑣。LEE等[11]采用了拉曼光譜、近紅外光譜技術(shù)(Near infrared,NIR)與中紅外光譜技術(shù)(Mid infrared,MIR)3種光譜技術(shù)對玉米受黃曲霉毒素污染進行了對比分析,結(jié)果顯示,拉曼光譜與MIR對玉米中黃曲霉毒素的預測精度優(yōu)于NIR光譜技術(shù)。這些研究均表明,光譜技術(shù)在農(nóng)產(chǎn)品的霉變檢測領域取得了較好的研究進展[12-14]。新興的太赫茲光譜技術(shù)與其他光譜技術(shù)相比,具有承載更多信息、能量低、不會對被檢物質(zhì)造成光電離破壞、并具有一定的穿透性等特點[15-17],在農(nóng)產(chǎn)品檢測領域具有巨大的潛力[18-19]。因此,本文采用太赫茲光譜技術(shù)中的衰減全反射方式進行光譜掃描,通過光譜預處理與變量優(yōu)化后分別結(jié)合BP(誤差反向傳播)神經(jīng)網(wǎng)絡算法與支持向量機(Support vector machine,SVM)算法,建立不同霉變程度花生的定性分析模型。
材料:不同品種的帶殼花生1 000 g(購于某種子公司)。
主儀器:英國Tera View公司生產(chǎn)的TeraPulse 4000型太赫茲脈沖光譜儀,如圖1a所示,可發(fā)射頻率從60 GHz到4 THz(2~133 cm-1)的太赫茲波,信噪比最高達到70 dB。光譜采集部分選擇入射角為35°的單晶硅衰減全發(fā)射(ATR)模塊,工作范圍為10~120 cm-1(0.3~3.6 THz)。
輔助儀器:SPX-80型智能生化培養(yǎng)箱,購自杭州碩聯(lián)儀器有限公司,溫度波動±0.5℃,如圖1b所示。
圖1 實驗儀器Fig.1 Experimental apparatus
實驗選取的花生品種為花育36號;為排除不同品種給實驗帶來的偶然性,選取魯花9號花生品種作為參考樣本進行培育。兩種花生品種樣本共計80枚,大小、顏色均勻一致,吹掃干凈。預留20枚視為正?;ㄉ鷺颖荆溆?0枚作為發(fā)霉培育對象?;ㄉ诟邷?、高濕、封閉環(huán)境下最易發(fā)生霉變[20],因此實驗時,按照水分與花生樣本質(zhì)量比0.2左右在花生殼表面均勻噴灑去離子水,并置于28℃的生化培養(yǎng)箱里培養(yǎng)。同時利用溫濕度檢測儀確?;ㄉ幁h(huán)境溫度在28℃左右、相對濕度80%~90%。實驗方案如表1所示。
表1 樣本培養(yǎng)方案Tab.1 Sample culture program
將得到的輕度、中度、嚴重霉變花生樣本作為實驗待測樣本,取出并放置于干燥、常溫環(huán)境下1~2 d。得到的花生樣本外殼表面有明顯皺縮、發(fā)黑,有斑點的現(xiàn)象;去殼后霉變樣本如圖2所示。
圖2 不同狀態(tài)下的花生Fig.2 Peanuts in different states
3類霉變花生樣本表面皆有4 mm左右淡綠毛、白色塊狀斑點產(chǎn)生,顏色晦暗發(fā)黃,質(zhì)地變軟,肉眼較難區(qū)分。隨機選取包括正常、輕度、中度、嚴重霉變花生仁各20粒,制作成厚度約1 mm、尺寸約1 cm×1 cm的花生仁切片,樣本共計80個。為防止花生仁發(fā)生氧化等反應,該操作應盡可能快速準確。實驗環(huán)境溫度始終保持在22℃。
圖3 部分霉變樣本的時域光譜Fig.3 Time-domain spectra of some mildew samples
實驗采集80個花生樣本切片的ATR光譜。確保ATR晶體未放置樣品并干凈無污染,采集得到參考信號(Reference signal)后進行樣本的數(shù)據(jù)采集。為確保樣本和ATR晶體之間光學接觸良好,需擰緊壓力螺釘,最大限度地提高吸光度[21]。ATR采集參數(shù)設置為:分辨率0.94 cm-1,每次快速掃描的平均次數(shù)為450。
部分樣本的原始太赫茲時域光譜如圖3所示。從圖中可以看出,由于空氣中的水分干擾,樣本信號的波形均存在較小抖動。此外,4種花生仁樣本的脈沖波形相似,差異細微,說明了系統(tǒng)的穩(wěn)定性;但不易直接通過太赫茲時域光譜進行不同程度霉變花生的有效鑒別,需要將采集得到的時域信號進一步處理,提取出更有效的光學常數(shù)并結(jié)合模式識別算法建立定性分析模型。
2.1.1光學常數(shù)提取
光學常數(shù)是表征物質(zhì)宏觀光學性質(zhì)的重要物理量,同樣也是太赫茲光譜分析中建模數(shù)據(jù)的來源[22]。通常情況下更多選用的光學常數(shù)是物質(zhì)的吸光度與吸收系數(shù)。提取光學常數(shù)前,需要利用快速傅里葉變換(FFT)將參考信號和樣本的時域光譜進行轉(zhuǎn)換。在獲得信號頻域譜的過程中,為避免信號數(shù)據(jù)開頭和結(jié)尾不連續(xù)造成信號頻譜顯示的失真,需對信號進行加窗處理,減少時域信號截斷所帶來的誤差[23]。窗函數(shù)的種類多樣,比如Boxcar用于高分辨率,Blackman Harris用于高信噪比,本文選擇最常用的Happ Genzel,因為其兼顧了信噪比和分辨率。
將得到樣本信號與參考信號的對應頻域信息作比后,利用所得比值函數(shù)的幅值ρ(ω)和相位φ(ω)信息計算得到所需的光學常數(shù)。樣本的光學常數(shù)吸光度A(?)與吸收系數(shù)α(ω)計算公式為
(1)
(2)
(3)
式中E0(?)——入射的太赫茲波強度
E1(?)——透過物質(zhì)的太赫茲波強度
d——樣本的厚度
ω——角頻率
ρ(ω)——比值函數(shù)的幅值
φ(ω)——比值函數(shù)的相位
n(ω)——樣本的折射率
c——太赫茲波在空氣中的傳播速度
其中吸光度與吸收系數(shù)譜圖如圖4所示。
圖4 吸光度譜圖和吸收系數(shù)譜圖Fig.4 Absorption and absorbance spectra
圖5 平均吸收系數(shù)Fig.5 Average absorption coefficient
2.1.2光譜范圍選取
在10~120 cm-1頻域內(nèi),觀察圖4a實驗數(shù)據(jù)發(fā)現(xiàn),隨著頻率的增加,樣品吸光度整體呈現(xiàn)先上升后下降趨勢,但無明顯特征峰存在;而圖4b中所有樣本的吸收系數(shù)光譜特征峰明顯,所以本實驗選擇吸收系數(shù)作為建模數(shù)據(jù)。但吸收系數(shù)譜線整體呈差異較小、重疊度較高、難以分辨的特點。
為了解決這個問題,進一步對每個類別的所有樣本取平均處理。處理后可以發(fā)現(xiàn)在一定波段內(nèi)正常樣本與霉變樣本的差異十分顯著。圖5a為正常、嚴重霉變花育36號各自類別在5~44 cm-1的平均吸收系數(shù),可以看到兩條曲線相離甚遠,并且隨著頻率增加,吸收系數(shù)越來越高。圖5b為正常、嚴重霉變魯花9號各自類別在0~50 cm-1的平均吸收系數(shù),同樣兩條曲線差異也是十分顯著,為后期模型建立提供了可能性。
BP神經(jīng)網(wǎng)絡算法是當前工業(yè)領域應用較多的一種前饋式學習算法與反向傳播算法的神經(jīng)網(wǎng)絡,可對樣本進行有效分類,故采用BP神經(jīng)網(wǎng)絡進行不同霉變程度樣本的分類處理;同時,為了探究處理此類數(shù)據(jù)更優(yōu)的算法,嘗試采用同樣經(jīng)典的SVM方法進行霉變樣本分類的定性分析。支持向量機庫Lib-SVM,能夠解決小樣本情況下的機器學習問題,提高泛化能力,解決高維問題、非線性問題,適于處理光譜數(shù)據(jù)[24-25],故同時采用Lib-SVM進行花生霉變程度鑒別模型的建立。
2.2.1基于BP神經(jīng)網(wǎng)絡的定性分析
表2 BP網(wǎng)絡輸出節(jié)點編碼Tab.2 BP network output node coding
圖6 BP算法分類結(jié)果Fig.6 BP algorithm classification results
2.2.2基于Lib-SVM的定性分析
首先建立正常與霉變花生的二分類模型。采用基于網(wǎng)格搜索及交叉驗證方法進行參數(shù)尋優(yōu)的支持向量機多分類算法,建立兩類品種樣本霉變的二分類模型。按3∶1的比例隨機劃分建模集和測試集,即得到20個樣本作為測試集,其余60個樣本作為建模集。對經(jīng)過歸一化預處理后的樣本建立基于特征波段-吸收系數(shù)的正常、霉變樣本二分類模型。模型結(jié)果如圖7所示,藍色標識代表樣本的實際類別,紅色標識代表樣本的預測類別,可以看出,兩類測試樣本都準確地被劃分到自身所屬類別當中,模型預測正確率為100%。
圖7 霉變程度二分類模型預測結(jié)果Fig.7 Prediction result of mildew degree two-class model
為進一步探索太赫茲光譜技術(shù)在花生霉變情況檢測研究中的可行性,對輕度、中度、嚴重霉變樣本建立基于特征波段-吸收系數(shù)譜的霉變程度三分類模型。
在建立三分類模型時,同樣選擇采用基于網(wǎng)格搜索法及交叉驗證方法進行參數(shù)尋優(yōu)的SVM多分類算法,按3∶1的比例隨機劃分建模集和測試集,即得到15個樣本作為測試集,其余45個樣本作為建模集。對經(jīng)過歸一化預處理后的所有樣本建立SVM模型,并分別建立花育36號、魯花9號霉變樣本的三分類模型,結(jié)果如圖8所示。可以看出,3類測試樣本都準確地被劃分到自身所屬類別當中,模型預測正確率為100%,可靠性較高。所有模型參數(shù)及預測結(jié)果如表3所示。
圖8 霉變程度三分類模型預測結(jié)果Fig.8 Prediction result of mildew degree three-class model
分類模型光譜范圍/cm-1總預測正確率/%懲罰參數(shù)Gamma參數(shù)花育二分類模型5~44100-2.5-5魯花二分類模型0~50100-4.0-4.5花育三分類模型5~44100-1.5-6魯花三分類模型0~501000-7
應用太赫茲衰減全反射技術(shù)對不同霉變程度的花生樣本進行了定性分析研究。通過對比發(fā)現(xiàn),不同霉變程度的花生樣本在太赫茲波段的時域譜、吸光度譜以及吸收系數(shù)譜均存在一定的差異。進一步使用歸一化對數(shù)據(jù)進行處理,并分別結(jié)合BP神經(jīng)網(wǎng)絡算法與SVM算法,建立了花生霉變程度鑒別的定性分析模型。其中,基于BP神經(jīng)網(wǎng)絡算法的模型對花育36號霉變樣本的識別正確率為88.57%,對魯花9號樣本的識別正確率為91.40%;基于SVM算法的二分類、三分類模型對花育36號、魯花9號霉變樣本的識別正確率均達到100%。結(jié)果表明,相比于BP神經(jīng)網(wǎng)絡算法,SVM算法能夠解決小樣本情況下的機器學習問題,可提高泛化能力,更適合處理光譜數(shù)據(jù),并進行建模分析;作為一種便捷、可靠的方式,采用太赫茲衰減全反射光譜技術(shù)對貯藏期間的花生進行檢測,在判斷花生霉變程度方面具有一定的可行性。