李慶波, 畢智棋, 石冬冬
1. 北京航空航天大學(xué)儀器科學(xué)與光電工程學(xué)院, 精密光機(jī)電一體化技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室, 北京 100191 2. 中國(guó)農(nóng)業(yè)科學(xué)院飼料研究所, 北京 100081
隨著國(guó)內(nèi)養(yǎng)殖業(yè)機(jī)械化、 專業(yè)化程度的發(fā)展, 養(yǎng)殖規(guī)模飛速擴(kuò)大, 中國(guó)魚粉市場(chǎng)不僅對(duì)魚粉的需求量越來越多, 也對(duì)魚粉的品質(zhì)提出了更高的要求。 而中國(guó)的飼料企業(yè)如何選擇品質(zhì)好, 質(zhì)量高的魚粉是現(xiàn)在面臨的困難與考驗(yàn)[1]。 魚粉質(zhì)量差異決定了飼養(yǎng)物能否獲得充足營(yíng)養(yǎng), 魚粉產(chǎn)地眾多, 品質(zhì)參差不齊, 有不法商家以次充好, 用劣質(zhì)進(jìn)口魚粉或國(guó)產(chǎn)魚粉冒充優(yōu)質(zhì)進(jìn)口魚粉, 來獲取更大的利潤(rùn)[2]。 為了避免這種危害市場(chǎng)秩序的行為需要對(duì)魚粉產(chǎn)地進(jìn)行溯源研究。
近紅外光譜能夠反映物質(zhì)化學(xué)組成成分的性質(zhì)和含量[3-4], 因此采用近紅外光譜技術(shù)對(duì)魚粉產(chǎn)地進(jìn)行溯源識(shí)別。 2015年, 宋濤[5]等基于近紅外光譜技術(shù)對(duì)市場(chǎng)上常見的淡水魚粉、 進(jìn)口魚粉和國(guó)產(chǎn)魚粉三類商品化的魚粉樣品進(jìn)行自動(dòng)化判別實(shí)驗(yàn)。 通過分析魚粉樣品光譜之間的差異, 采用主成分分析法建立魚粉種類定性判別的分類模型。 Cozzolino D[6]等采用改進(jìn)的偏最小二乘回歸方法建立近紅外光譜校準(zhǔn)模型, 預(yù)測(cè)決定魚粉質(zhì)量的化學(xué)成分。 目前國(guó)內(nèi)外關(guān)于魚粉產(chǎn)地溯源文獻(xiàn)較少, 主要集中于進(jìn)口魚粉、 國(guó)產(chǎn)魚粉的大類判別或蛋白質(zhì)、 水分、 鹽等魚粉化學(xué)成分含量的定量檢測(cè), 其實(shí)這種劃分十分粗糙, 原產(chǎn)地不同的進(jìn)口魚粉之間差異極大, 而即使是國(guó)產(chǎn)魚粉, 原產(chǎn)地不同時(shí)其質(zhì)量差異也十分顯著。 由于采集大量原產(chǎn)地明確且沒有摻雜的進(jìn)口魚粉比較難, 本研究首先以產(chǎn)地來源明確的國(guó)產(chǎn)魚粉為實(shí)驗(yàn)對(duì)象, 對(duì)魚粉產(chǎn)地溯源進(jìn)行了研究。 采用灰狼算法[7-9]優(yōu)化的支持向量機(jī)建立預(yù)測(cè)模型對(duì)國(guó)產(chǎn)魚粉進(jìn)行更詳細(xì)的產(chǎn)地區(qū)分。 采用支持向量機(jī)比偏最小二乘回歸和主成分分析法等更適用于魚粉的定性分析。 灰狼算法尋找支持向量機(jī)的關(guān)鍵參數(shù)具有速度快, 精確度高的優(yōu)點(diǎn), 使魚粉產(chǎn)地溯源結(jié)果更加準(zhǔn)確。 建立灰狼優(yōu)化算法的支持向量機(jī)預(yù)測(cè)模型對(duì)魚粉產(chǎn)地進(jìn)行溯源, 防止使用低質(zhì)量產(chǎn)地的魚粉冒充高質(zhì)量產(chǎn)地的魚粉, 對(duì)魚粉產(chǎn)業(yè)規(guī)范化及飼養(yǎng)行業(yè)穩(wěn)定發(fā)展都具有推動(dòng)作用和意義。
共采集144份國(guó)產(chǎn)魚粉, 其中產(chǎn)地為遼寧大連58份、 山東威海46份、 山東榮成30份, 浙江溫嶺10份, 隨機(jī)選取每種樣品的70%作為建模訓(xùn)練樣本集, 30%作為測(cè)試樣品集(表1)。
表1 魚粉樣品測(cè)試訓(xùn)練分組情況
實(shí)驗(yàn)采用德國(guó)布魯克公司的MATRIX-I型近紅外光譜儀。 首先預(yù)熱儀器半小時(shí), 以保證儀器運(yùn)行的穩(wěn)定性; 其次, 設(shè)置實(shí)驗(yàn)參數(shù)為: 反射模式下光譜采集間隔為1 nm、 掃描波段為3 700~12 500 cm-1、 掃描次數(shù)64, 每個(gè)樣本掃描兩次。 所有實(shí)驗(yàn)均采取相同的掃描方法, 并且在相同的實(shí)驗(yàn)參數(shù)下進(jìn)行。
由于采集到的近紅外光譜存在基線漂移和高頻噪聲, 需要對(duì)儀器采集獲得的原始光譜數(shù)據(jù)采取預(yù)處理改善。 采用多元散射校正對(duì)光譜進(jìn)行基線校正, 采用小波變換對(duì)基線校正后的光譜進(jìn)行平滑去噪, 消除高頻噪聲。
1.4.1 支持向量機(jī)
支持向量機(jī)[10]的原理是將高維數(shù)據(jù)映射為高維空間的點(diǎn), 然后尋到一個(gè)超平面使高維數(shù)據(jù)分為兩類且兩類不同種類數(shù)據(jù)的間隔最大化。 而高維數(shù)據(jù)具有線性可分性則可以在該維度分類, 若具有線性不可分性則需要借助核函數(shù)將數(shù)據(jù)映射到更高維的空間分類。
首先將需要分類的數(shù)據(jù)以及數(shù)據(jù)的標(biāo)簽輸入分類器, 構(gòu)成特征空間。 設(shè)置數(shù)據(jù)與超平面的距離, 引入拉格朗日函數(shù)尋找最佳分類的超平面, 借助核函數(shù)簡(jiǎn)化內(nèi)積運(yùn)算。
采用高斯徑向基核函數(shù)式(1)
(1)
得到RBF-SVM分類模型式(2)
(2)
1.4.2 灰狼算法
傳統(tǒng)的尋找最佳參數(shù)方法是采用網(wǎng)格搜索法, 對(duì)懲罰因子和核函數(shù)半徑等需要選擇的參數(shù)在一個(gè)設(shè)置好范圍內(nèi)采取遍歷取值的方法, 經(jīng)過參數(shù)組合對(duì)比得出最優(yōu)結(jié)果。 遍歷取值搜索參數(shù)用時(shí)長(zhǎng), 精度由步長(zhǎng)取值決定, 計(jì)算繁瑣。 灰狼算法對(duì)最佳參數(shù)選擇進(jìn)行了優(yōu)化, 根據(jù)狼群捕食方式將捕食過程用數(shù)學(xué)方法表達(dá)出來。 首先是搜索獵物對(duì)獵物進(jìn)行包圍階段, 狼群在獵物附近的空間范圍內(nèi)隨機(jī)活動(dòng)。 隨機(jī)產(chǎn)生若干組參數(shù), 選出三條適應(yīng)度最好的狼即α狼、β狼、δ狼, 通過這三頭狼進(jìn)行目標(biāo)參數(shù)預(yù)估, 進(jìn)行多次迭代移動(dòng)。
(3)
(4)
式(3)和式(4)中D為狼朝獵物移動(dòng)的距離,X為狼所處的位置,t為迭代次數(shù),A和C是系數(shù)向量負(fù)責(zé)提供狼群移動(dòng)的距離和方向,XP為獵物位置, 式(3)和式(4)是狼移動(dòng)向量移動(dòng)到下一代狼的位置。A和C根據(jù)式(5)和式(6)進(jìn)行變化
(5)
(6)
式中a為由2線性衰減到0的向量,r1,r2為0到1之間的隨機(jī)向量。 通過隨機(jī)向量r1,r2, 更新后的狼到達(dá)獵物周圍一定范圍內(nèi)的隨機(jī)位置。 將頭三匹狼對(duì)獵物包圍之后其他狼朝頭狼們靠近。 公式如式(7)—式(13)
(7)
(8)
(9)
(10)
(11)
(12)
(13)
式(7)、 式(8)和式(9)分別代表ω狼朝適應(yīng)度最好的三頭狼移動(dòng)距離, 式(10), 式(11)和式(12)是ω狼向其他三頭狼靠近的前進(jìn)方向和距離, 式(13)為ω狼最終的位置。 最后當(dāng)滿足限制條件時(shí)對(duì)獵物發(fā)出攻擊, 最終α狼的位置就是目標(biāo)參數(shù)的位置。
圖1為不同產(chǎn)地魚粉的原始近紅外光譜曲線, 需經(jīng)預(yù)處理后, 再對(duì)產(chǎn)地進(jìn)行判別, 圖2為多元散射校正后光譜曲線, 經(jīng)校正后消除基線漂移。 圖3為小波變換前后光譜曲線對(duì)比圖, 其中以波數(shù)為橫坐標(biāo), 范圍為3 700~12 500 cm-1, 光譜漫反射率為縱坐標(biāo)。 通過小波變換后, 在對(duì)光譜曲線平滑去噪的同時(shí)并沒有因此丟失原來信號(hào)的輪廓細(xì)節(jié), 并達(dá)到了消除高頻噪聲的目的。
圖1 魚粉樣品的原始近紅外光譜
圖2 多元散射校正后魚粉樣品的近紅外光譜圖
圖3 近紅外光譜小波變換前后對(duì)比
對(duì)四個(gè)產(chǎn)地魚粉光譜隨機(jī)選取每個(gè)產(chǎn)地樣品的70%作為建模訓(xùn)練樣本集, 30%作為測(cè)試樣品集進(jìn)行十次平行實(shí)驗(yàn), 采用灰狼算法的支持向量機(jī)得到分類結(jié)果與相同條件下使用網(wǎng)格搜索法尋找懲罰因子和核半徑函數(shù)的支持向量機(jī), 結(jié)果分別見表2和表3。
表2 GWO-SVM國(guó)產(chǎn)、 進(jìn)口魚粉產(chǎn)地識(shí)別結(jié)果
表3 網(wǎng)格搜索法SVM國(guó)產(chǎn)、 進(jìn)口魚粉產(chǎn)地識(shí)別結(jié)果
經(jīng)過十組平行實(shí)驗(yàn)后, GWO-SVM識(shí)別魚粉產(chǎn)地為山東榮成、 山東威海、 遼寧大連的識(shí)別正確率相比網(wǎng)格搜索法分別提高13.33%, 5.71%和1.11%, GWO-SVM平均用時(shí)大幅縮減。 在魚粉產(chǎn)地進(jìn)行多分類溯源時(shí), 使用灰狼算法改進(jìn)SVM相對(duì)于網(wǎng)格搜索法提高了識(shí)別的準(zhǔn)確度, 用時(shí)明顯縮短。
魚粉的產(chǎn)地不同導(dǎo)致各產(chǎn)地的魚粉所含有機(jī)物含量和組成不同, 導(dǎo)致各近紅外光譜存在一定差異, 通過多元散射校正和小波變換對(duì)光譜進(jìn)行預(yù)處理, 采用灰狼優(yōu)化算法尋找支持向量機(jī)最佳懲罰因子和核函數(shù)半徑, 能夠?qū)︳~粉產(chǎn)地正確分類。 灰狼優(yōu)化算法相對(duì)與網(wǎng)格搜索法提高了搜索速度和準(zhǔn)確度, 對(duì)產(chǎn)地分類的正確率均達(dá)到95%以上。 試驗(yàn)結(jié)果表明, 采用近紅外光譜技術(shù)可以快速準(zhǔn)確的對(duì)魚粉進(jìn)行產(chǎn)地溯源。 所采用的灰狼算法結(jié)合支持向量機(jī)預(yù)測(cè)模型能夠獲得很好的分類結(jié)果, 為魚粉產(chǎn)地溯源提供了有效的方法和依據(jù)。