姜 微,房俊龍,王樹文,王潤濤(.東北農(nóng)業(yè)大學(xué)電氣與信息學(xué)院,哈爾濱 50030;2.哈爾濱金融學(xué)院計算機系,哈爾濱 50030)
?
CARS-SPA算法結(jié)合高光譜檢測馬鈴薯還原糖含量
姜微1, 2,房俊龍1*,王樹文1,王潤濤1
(1.東北農(nóng)業(yè)大學(xué)電氣與信息學(xué)院,哈爾濱150030;2.哈爾濱金融學(xué)院計算機系,哈爾濱150030)
摘要:以競爭性重加權(quán)自適應(yīng)選擇算法(CARS)結(jié)合連續(xù)投影算法(SPA)選擇馬鈴薯還原糖含量特征波長,共制備238個樣本,比色法測定馬鈴薯還原糖含量,選擇190個樣本作校正集,48個樣本作驗證集,與全光譜和經(jīng)典變量提取方法比較。結(jié)果表明,CARS-SPA算法篩選波段效果最佳,相比于全譜建模其參與建模波長點由203個減少到17個,模型驗證集決定系數(shù)r2由0.8464提高到0.8965,均方根誤差(RMSEP)由0.0758降到0.0490。結(jié)果表明,采用CARS-SPA結(jié)合高光譜成像技術(shù)檢測馬鈴薯還原糖含量結(jié)果可行。
關(guān)鍵詞:高光譜;競爭性自適應(yīng)重加權(quán)采樣算法;連續(xù)投影算法;馬鈴薯;還原糖
姜微,房俊龍,王樹文,等. CARS-SPA算法結(jié)合高光譜檢測馬鈴薯還原糖含量[J].東北農(nóng)業(yè)大學(xué)學(xué)報, 2016, 47(2): 88-95.
Jiang Wei, Fang Junlong, Wang Shuwen, et al. Using CARS-SPA algorithm combined with hyperspectral to determine reducing sugars content in potatoes[J]. Journal of Northeast Agricultural University, 2016, 47(2): 88-95. (in Chinese with English abstract)
馬鈴薯還原糖含量是影響加工品質(zhì)重要因素之一[1]。準(zhǔn)確、快速測定馬鈴薯還原糖含量對于馬鈴薯深加工等具有重要意義。目前,測定還原糖的電化學(xué)法和比色法多為傳統(tǒng)方法,操作步驟繁瑣,成本高,不利大批樣品分析測定[2]。研究馬鈴薯還原糖含量快速檢測方法,具有一定應(yīng)用價值。
高光譜成像技術(shù)可獲取被測對象光譜信息和波長圖像信息。該技術(shù)檢測馬鈴薯內(nèi)外部品質(zhì)研究已有報道。Dacal-Nieto等應(yīng)用高光譜成像技術(shù)無損檢測馬鈴薯空心病[3]。Rady等提出高光譜成像技術(shù)快速檢測馬鈴薯含糖量可行[4]。Jiang等基于高光譜成像技術(shù)檢測馬鈴薯中淀粉含量,效果良好[5]。周竹等應(yīng)用高光譜圖像系統(tǒng)、透射光譜系統(tǒng)和傅立葉變換近紅外光譜儀檢測馬鈴薯黑心病,表明光譜檢測馬鈴薯黑心病,高光譜成像系統(tǒng)高于傅立葉變換成像[6]。蘇文浩等應(yīng)用高光譜技術(shù)結(jié)合圖像處理方法檢測馬鈴薯外部缺陷,表明正確識別率達(dá)82.5%[7]。周竹等應(yīng)用高光譜技術(shù)檢測馬鈴薯干物質(zhì)含量[8]。吳辰等應(yīng)用高光譜成像技術(shù)快速檢測馬鈴薯淀粉含量取得較好效果,驗證模型相關(guān)系數(shù)和均方根誤差分別為0.982和0.249[9]。金瑞等基于高光譜圖像和光譜信息融合技術(shù)可同時識別馬鈴薯多種缺陷指標(biāo),混合識別率達(dá)96.58%[10]。由于高光譜具有較高分辨率,導(dǎo)致大量冗余信息存在于原始光譜信息中。因此,利用高光譜數(shù)據(jù)定量分析前壓縮光譜信息尤為必要。
本文以馬鈴薯為研究對象,基于高光譜成像技術(shù)獲取馬鈴薯光譜曲線信息,采用競爭性自適應(yīng)重加權(quán)算法(CARS)結(jié)合連續(xù)投影算法(SPA)篩選特征波長,與全光譜和其他變量提取方法比較,分別建立偏最小二乘PLS模型并驗證,獲取適用于馬鈴薯品質(zhì)定量分析的高光譜最優(yōu)變量。
1.1樣品與儀器
選用黑龍江省哈爾濱周邊城市不同品種馬鈴薯為研究對象。去除表面缺陷明顯樣本,共238個樣品。隨機選取其中190個作建模樣本集,其余48個作預(yù)測樣本集。試驗前將馬鈴薯表面清洗干凈。
采用美國HeadWall公司生產(chǎn)高光譜圖像采集系統(tǒng)。系統(tǒng)由圖像采集單元、光源、樣本輸送平臺三部分組成。圖像采集單元包括圖像光譜儀、CCD攝像頭、鏡頭;光源為150 W可調(diào)功率光纖鹵素?zé)?。高光譜圖像光譜儀狹縫寬度為25 μm,光譜范圍為是400~1000 nm,光譜分辨率為1.29 nm,采集圖像時波段間隔為3 nm,空間分辨率0.15 mm。
1.2還原糖含量化學(xué)分析法
還原糖含量化學(xué)值測定:采用3,5-二硝基水楊酸比色法,具體步驟參見文獻(xiàn)[11]。
1.3數(shù)據(jù)采集
不同波段下光源強度分布不均勻,攝像頭中存在暗電流,導(dǎo)致光源分布較弱波段噪聲過大,須對高光譜圖像校正。為降低光源因溫度變化造成圖像干擾,每采集20幅樣本圖像,作一次全白標(biāo)定圖像和全黑標(biāo)定圖像采集,根據(jù)公式(1)得到校正后高光譜圖像[12]。
式中,I-校正后圖像;Is-原始圖像;Iw-白板圖像;Id-黑色圖像。
1.4數(shù)據(jù)預(yù)處理
為減弱或消除基線漂移、散射等非目標(biāo)因素對光譜影響,對高光譜成像儀采集光譜預(yù)處理[13]。分別對原始光譜采用平滑13點、最大值歸一化、基線校正、正交信號校正和標(biāo)準(zhǔn)化等預(yù)處理,并依次比較原始光譜和預(yù)處理后光譜對定標(biāo)模型影響,以系數(shù)最大、均方根誤差最小原則,確定預(yù)處理方法。去除與樣本無關(guān)信息,提高模型預(yù)測能力。
1.5競爭性自適應(yīng)重加權(quán)算法(CARS)
競爭性自適應(yīng)重加權(quán)算法(CARS)是模擬達(dá)爾文進(jìn)化論“適者生存”提出的變量選擇方法[14]。每次通過自適應(yīng)重加權(quán)采樣(ARS)技術(shù)篩選PLS模型中回歸系數(shù)絕對值大波長點,去除權(quán)重小波長點,交叉驗證選出PLS模型中交叉驗證均方根誤差RMSECV最小子集定義為最優(yōu)變量子集。
假定所測樣本光譜陣矩陣為Xm×p,m為樣本數(shù),p為變量數(shù),Ym×1表示目標(biāo)響應(yīng)向量。T為X分矩陣,是X與W線性組合,W為組合系數(shù)。c表示Y和T建立PLS校正模型回歸系數(shù)向量,e為預(yù)測殘差。則有如下關(guān)系式成立:
T=XW
Y=Tc+e=XWc+e=Xb+e
式中,b=Wc=[b1,b2,…,bp],表示一個p維系數(shù)向量。b中第i個元素絕對值|bi|(1≤i≤p)表示第i個波段對Y貢獻(xiàn),|bi|值越大該變量越重要。為評價每個波段重要性,定義權(quán)重為:
通過CARS算法去除變量,其權(quán)重ωi均設(shè)為0。主要流程見圖2。
變量保留率ri=ae-ki
其中,a和k為常數(shù),分別在第1次和第N次 MCS采樣時,樣本集中全部p個變量參與建模和僅2個變量參與建模,即r1=1且rN=2/p,從而
本文中,變量數(shù)p為203,設(shè)定MC采樣次數(shù)為200,因此,常數(shù)a和k值分別為1.0235和0.0232。
圖2 CARS算法流程Fig. 2 Flow chart of CARS algorithm
1.6模型評價
利用交叉驗證法優(yōu)化模型相關(guān)參數(shù),由決定系數(shù)r2、校正均方根誤差RMSEC、預(yù)測均方根誤差RMSEP和交叉驗證均方根誤差RMSECV對模型評價。模型決定系數(shù)r2越高,RMSECV和RMSEP越小,模型預(yù)測能力越強。
選用鮮馬鈴薯還原糖含量作為建模對象,在400~1 000 nm波段選取203個波段點,使用Matlab R2013a編程實現(xiàn)模型分析。
2.1還原糖含量化學(xué)值
馬鈴薯還原糖含量見表1。
2.2預(yù)處理方法選擇
樣本區(qū)域在400~1 000 nm波長范圍下原始光譜圖(見圖3)。每條光譜包含203個波段。觀察圖3發(fā)現(xiàn),樣本光譜曲線趨勢類似,無異常樣品。不同樣品對光反射和吸收存在差異,無法直接獲得與馬鈴薯還原糖含量相關(guān)特征波長,須利用有效方法選取特征波長。
圖3中,可能由于馬鈴薯表皮較粗糙及環(huán)境雜散光等原因?qū)е鹿庾V區(qū)域存在較大散射和基線漂移,光譜進(jìn)一步分析前需預(yù)處理。分別采用平滑13點、最大值歸一化、基線校正、正交信號校正和標(biāo)準(zhǔn)化等預(yù)處理方法,建立PLS模型,比較分析后確定平滑預(yù)處理效果最佳。
不同預(yù)處理方法馬鈴薯還原糖含量PLS建模預(yù)測結(jié)果(見表2)??芍?3點平滑預(yù)處理所建立PlS模型性能最佳,決定系數(shù)r2和均方根誤差RMSEP分別為0.8516和0.0671。隨著平滑點數(shù)增加,PLS模型性能逐漸下降。經(jīng)最大值歸一化和正交信號校正預(yù)處理后,PLS模型性能略有下降,而經(jīng)基線校正預(yù)處理后,PLS模型性能最差,RMSEP 為0.0791。
表1馬鈴薯還原糖含量Table 1 Reducing sugar in potato
圖3樣本原始光譜Fig. 3 Spectra of samples
2.3關(guān)鍵變量選擇
2.3.1 CARS變量篩選
采用CARS算法對鮮馬鈴薯還原糖含量全光譜變量多次篩選,最終選擇33個波長點。篩選結(jié)果如圖4所示。篩選中,蒙特卡洛采樣次數(shù)設(shè)定為200。(a)、(b)和(c)分別表示在1次CARS算法運行中隨著采樣次數(shù)增加,變量數(shù)、交叉驗證RMSECV值和每個變量回歸系數(shù)變化。
圖4(a)可知,在指數(shù)衰減函數(shù)作用下,選擇變量個數(shù)隨著采樣次數(shù)增加由快至慢遞減,算法在變量篩選中能對變量粗選和精選,極大提升算法效率。圖4(b)可知,隨采樣次數(shù)增加,單個PLS模型交叉驗證RMSECV值呈先遞減后遞增變化,采樣次數(shù)為28時,達(dá)到最小值;表明在第1~27次采樣運算中,高光譜中與馬鈴薯還原糖含量預(yù)測大量無關(guān)信息被去除,43次采樣后RMSECV值開始遞增,表明一些關(guān)鍵信息被剔除導(dǎo)致模型性能變差。圖4(c)中“*”線標(biāo)示出最小RMSECV值所對應(yīng)采樣次數(shù)。利用CARS算法篩選各波段光譜數(shù)據(jù)建立PLS模型,并與全波段模型比較。由表3可知,CARS變量篩選后建模得到RMSECV和RMSEP均優(yōu)于全波段建模,模型質(zhì)量明顯提高。另外,波段數(shù)由203個減少到33個,模型所用變量數(shù)顯著降低。
2.3.2其他變量選擇算法
GA遺傳算法以達(dá)爾文適者生存和優(yōu)勝劣汰生物進(jìn)化論為基礎(chǔ),模擬生物界遺傳和進(jìn)化過程建立的一種優(yōu)化方法[15]。本研究設(shè)定遺傳迭代次數(shù)為200,初始種群大小50,交叉率50%,變異率0.5%,適應(yīng)度函數(shù)選擇“F=RMSE”,建立馬鈴薯還原糖含量PLS模型,結(jié)果見表3。由選取變量數(shù)與RMSECV值確定最佳變量數(shù),圖5(a)表示RMSECV值和變量個數(shù)??芍兞繑?shù)為119時獲得最小RMSECV=0.0249。
MC-UVE是相對較新變量選擇方法,基于分析PLS回歸系數(shù)c算法,消除不提供有效信息變量。通過MC采樣技術(shù)采樣N次,每次從樣本集中抽取一定比例樣本作建模集PLS建模,通過評價每個變量穩(wěn)定性進(jìn)行變量篩選。采用UVE選擇全波段203個波長點,如圖5(b)所示,圖中虛線表示穩(wěn)定性值截止線。經(jīng)過UVE變量選擇,最終選取95個波長,建立PLS模型,預(yù)測結(jié)果見表3。
本文將馬鈴薯樣品校正集用移動窗口偏最小二乘(MWPLS)法進(jìn)行信息區(qū)間定位。此處設(shè)定窗口寬度為27,所提取PLS成分?jǐn)?shù)上限為15,結(jié)果如圖5(c)所示。倒立峰形曲線由各變量點RMSECV隨窗口位置變化形成,其中虛線表示全光譜含有12個主成分時,交叉驗證均方根誤差為0.0603比較合適。由圖5可知,波長范圍450~ 470、520~560、730~810、860~890和910~980 nm 時RMSECV值較小。將以上106個特征光譜變量合并成新數(shù)據(jù)集作后續(xù)最優(yōu)波長組合變量選擇,建立PLS模型,結(jié)果見表3。
表2不同預(yù)處理方法PLS建模結(jié)果Table 2 Results of PLS regression of different pretreatment methods
圖4 CARS關(guān)鍵變量選擇Fig. 4 Key variables screening by CARS
圖5 GA、MC-UVE和MWPLS變量選擇算法Fig. 5 Key variables selection results
表3偏最小二乘回歸模型性能Table 3 Performance of PLSR model
由表3可知,GA-PLS模型預(yù)測結(jié)果(r2pre和RMSEP分別為0.8521和0.0683)均高于MC-UVEPLS和MW-PLS模型,與全變量PLS模型相比,預(yù)測結(jié)果優(yōu)于全變量模型,進(jìn)一步證明變量篩選有助于提高模型性能。與CARS-PLS模型比較,二者預(yù)測性能相同,但GA-PLS模型使用了比CARS-PLS模型多72.24%變量(119和33)、r2pre提高0.08%。因此,綜合分析四種變量選擇方法,CARS波長選擇能力最強。
2.4 SPA連續(xù)投影算法二次波長選擇
經(jīng)變量選擇后,變量個數(shù)均有減少,模型性能指標(biāo)提高。仍須進(jìn)一步優(yōu)選光譜變量。嘗試將CARS算法選擇后特征波長采用連續(xù)投影算法二次篩選最優(yōu)波長組合,建立PLS模型。連續(xù)投影算法SPA利用向量投影分析,尋找光譜信息中含有最低限度冗余信息變量組,使變量之間共線性達(dá)到最小,減少建模變量數(shù)量,可有效減小模型建立過程中擬合復(fù)雜程度,加快擬合運算速度[16]。
本試驗中針對不同波長范圍內(nèi)光譜信息,通過改變m_max(最大有效波長數(shù))觀察在m_max不同條件下模型最佳參數(shù)及結(jié)果,波長選擇結(jié)果如圖6。
由圖6可知,在選擇m_max=17時,獲得最小RMSECV值,模型擬合效果最佳。由表3可知,CARS-SPA-PLS模型預(yù)測結(jié)果優(yōu)于CARS -PLS模型,且波長點由33個變?yōu)?7個,提高了模型擬合速度和效率,模型驗證集決定系數(shù)r2pre為0.8965,均方根誤差RMSEP降為0.0490。
圖6 SPA特征波長選擇結(jié)果Fig. 6 Characteristic band selection result of SPA
采用高光譜成像技術(shù)結(jié)合競爭性自適應(yīng)重加權(quán)算法預(yù)測馬鈴薯還原糖含量,結(jié)果表明,由CARS算法獲得關(guān)鍵變量建立PLSR模型性能優(yōu)于全波段PLS模型。同時與MWPLS、GA和MCUVE變量選擇法比較,CARS算法在變量選擇方面優(yōu)于其他。本文在CARS基礎(chǔ)上進(jìn)一步采用連續(xù)投影算法進(jìn)行變量篩選,最終將原始光譜203個變量減少到17個,所建PLSR模型r2pre及RMSEP分別為0.8965和0.0490,預(yù)測結(jié)果均優(yōu)于其他變量選擇算法,可有效定量分析馬鈴薯還原糖含量。
[參考文獻(xiàn)]
[ 1 ]朱海霞,石瑛,張慶娜,等. 3, 5-二硝基水楊酸(DNS)比色法測定馬鈴薯還原糖含量研究[J].中國馬鈴薯, 2005, 19(5): 266-269.
[ 2 ]王春英,陳伊里,石瑛.影響馬鈴薯油炸品質(zhì)研究進(jìn)展[J].中國馬鈴薯, 2003(3): 23-24.
[ 3 ] Dacal-NietoA,FormellaA, CarriónP,etal.Non-destructivedetection of hollow heart in potatoes using hyperspectral imaging[J]. Com?puter Analysis of Images and Patterns, 2011, 6855(2): 180-187.
[ 4 ] Rady A, Guyer D, Lu R F. Evaluation of sugar content of potatoes using hyperspectral imaging[J]. Food Bioprocess Technol, 2015, 8 (1): 995-1010.
[ 5 ] Jiang W, Fang J L, Wang SW, et al. Detection of starch content in potato based on hyperspectral imaging technique[J]. International Journal of Signal Processing, Image Processing and Pattern Recognition, 2015, 8(12): 49-58.
[ 6 ]周竹,李小昱,高海龍,等.漫反射和透射光譜檢測馬鈴薯黑心病比較[J].農(nóng)業(yè)工程學(xué)報, 2012, 28(11): 237-243.
[ 7 ]蘇文浩,劉貴珊,何建國,等.高光譜圖像技術(shù)結(jié)合圖像處理方法檢測馬鈴薯外部缺陷[J].浙江大學(xué)學(xué)報:農(nóng)業(yè)與生命科學(xué)版, 2014, 40(2): 188-196.
[ 8 ]周竹,李小昱,高海龍,等.馬鈴薯干物質(zhì)含量高光譜檢測中變量選擇方法比較[J].農(nóng)業(yè)機械學(xué)報, 2012.43(2):128-133.
[ 9 ]吳辰,何建國,賀曉光,等.基于近紅外高光譜成像技術(shù)馬鈴薯淀粉含量無損檢測[J].河南工業(yè)大學(xué)學(xué)報:自然科學(xué)版, 2014, 35 (5): 11-16.
[10]金瑞,李小昱,顏伊蕓,等.基于高光譜圖像和光譜信息融合馬鈴薯多指標(biāo)檢測方法[J].農(nóng)業(yè)工程學(xué)報, 2015, 31(16): 258-263.
[11]北京大學(xué)生理教研室.植物生理實驗技術(shù)[M].北京:北京大學(xué)出版社,1983.
[12] ElMasry G, Wang N, Vigneault C. Detecting chilling injury in Red Delicious apple using hyperspectral imaging and neural networks [J]. Postharvest Biol Technol, 2009, 52(1): 1-8
[13]陸婉珍.現(xiàn)代近紅外光譜分析技術(shù)[M].第2版.北京:中國石化出版社, 2005.
[14]詹白勺,倪君輝,李軍.高光譜技術(shù)結(jié)合CARS算法庫爾勒香梨可溶性固形物定量測定[J].光譜學(xué)與光譜分析, 2014, 34(10): 2752-2757.
[15]孔慶明,蘇中濱,沈為政,等. iPLS-SPA波長選擇方法在近紅外秸稈檢測中應(yīng)用研究[J].光譜學(xué)與光譜分析, 2015, 35(5): 1233-1238.
[16]劉國海,江輝,梅從立.基于dbiPLS-SPA變量篩選固態(tài)發(fā)酵濕度近紅外光譜檢測[J].農(nóng)業(yè)工程學(xué)報, 2013, 29(25): 218-222.
Using CARS-SPA algorithm combined with hyperspectral to determine reducing sugars content in potatoes
JIANG Wei1, 2, FANG Junlong1, WANG Shuwen1, WANG Runtao1(1. School of Electrical and Information, Northeast Agricultural University, Harbin 150030, China; 2. Department of Computer, Harbin Finance University, Harbin 150030, China)
Abstract:The paper used competitive adaptive reweighed sampling (CARS) and successive projections algorithm (SPA) to select the characteristic wavelength for detecting the reducing sugar content in potato. A total of 238 samples were prepared and the potato reducing sugar content was determined by colorimetry. Among them, 190 samples were selected as the calibration set and 48 samples as the validation set. The performance of CARS-SPA was compared with full spectrum and classical variable extraction methods. Results showed that the band screened by algorithm CARS-SPA had the best effect, compared to full spectrum modeling, the wavelength of the model reduced from 203 to 17, the model validation set coefficient r2increased from 0.8464 to 0.8965, and the root mean square error of prediction (RMSEP) decreased from 0.0758 to 0.0490. The results demonstrated that it was feasible to detect the reducing sugar content of potato using CARS-SPA combined with hyperspectral imaging.
Key words:hyperspectral; CARS; SPA; potato; reducing sugars
*通訊作者:房俊龍,教授,博士生導(dǎo)師,研究方向為信息處理與智能測控。E-mail: 13936439133@126. com
作者簡介:姜微(1980-),女,講師,博士研究生,研究方向為農(nóng)業(yè)信息技術(shù)。E-mail: jwhancg@126. com
基金項目:現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系建設(shè)專項資金(CARS-10-P22);國家高技術(shù)研究發(fā)展計劃(863計劃)(2013AA102303)
收稿日期:2015-08-27
中圖分類號:TS255.7;S532
文獻(xiàn)標(biāo)志碼:A
文章編號:1005-9369(2016)02-0088-08