袁旭林,鄭紀(jì)業(yè),趙賢,段玉林,王風(fēng)云
(1.山東省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息與經(jīng)濟(jì)研究所,山東 濟(jì)南 250100;2.百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,北京 100085;3.山東省科學(xué)技術(shù)情報(bào)研究院,山東 濟(jì)南 250101;4.中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)資源與農(nóng)業(yè)區(qū)劃研究所,北京 100081)
在基于高光譜成像技術(shù)的蘋果糖度無(wú)損檢測(cè)過程中,采集到的高光譜圖像數(shù)據(jù)量巨大,且數(shù)據(jù)之間具有很強(qiáng)的相關(guān)性,不僅計(jì)算復(fù)雜度高,而且影響后續(xù)模型建立的速度和精度,因此需要對(duì)數(shù)據(jù)進(jìn)行壓縮。主流的做法是選取感興趣區(qū)域,求取感興趣區(qū)域的平均光譜作為該蘋果的特征光譜,可將數(shù)據(jù)量從GB數(shù)量級(jí)降到KB數(shù)量級(jí),縮小近百萬(wàn)倍,使計(jì)算復(fù)雜度大大降低,從而提升后續(xù)模型的建立速度??梢?,感興趣區(qū)域選取是無(wú)損檢測(cè)模型建立的第一步,為后續(xù)模型建立提供了原始特征光譜數(shù)據(jù),其選取優(yōu)劣直接影響著后續(xù)建立模型的穩(wěn)定性,是高光譜數(shù)據(jù)分析中至關(guān)重要的一步。
已有很多學(xué)者采用高光譜成像技術(shù)對(duì)水果的內(nèi)部品質(zhì)進(jìn)行檢測(cè),一般在進(jìn)行高光譜圖像數(shù)據(jù)采集時(shí),成像光譜儀垂直放置在水果正上方,水果姿態(tài)為沿果核方向水平放置,水果運(yùn)動(dòng)方向垂直于成像光譜儀狹縫,但感興趣區(qū)域的選取方式各有不同。徐煥良等[1]基于光子傳輸模擬與卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)蘋果品質(zhì)時(shí),選取的感興趣區(qū)域?yàn)?0像素×40像素的區(qū)域。Gamal等[2]進(jìn)行蘋果硬度研究時(shí),選取的感興趣區(qū)域?yàn)檎麄€(gè)蘋果區(qū)域。郭志明等[3]利用光強(qiáng)度校正方法進(jìn)行蘋果糖度的高光譜可視化預(yù)測(cè)時(shí),以蘋果果梗-花萼連接線與赤道面上方的交叉點(diǎn)為中心提取直徑為150個(gè)像素點(diǎn)的圓形區(qū)域作為感興趣區(qū)域。查啟明[4]在進(jìn)行蘋果可溶性固形物和硬度分析時(shí),繞果核方向旋轉(zhuǎn)采集圖像,每旋轉(zhuǎn)120°采集一次高光譜數(shù)據(jù),一個(gè)蘋果采集3次,對(duì)應(yīng)3幅高光譜圖像,取每幅圖像蘋果中心赤道部位半徑150像素的圓形區(qū)域作為感興趣區(qū)域,以3幅圖像的感興趣區(qū)域的平均光譜作為該蘋果的特征光譜進(jìn)行建模。馮迪[5]在進(jìn)行蘋果可溶性固形物研究時(shí),采集完一面的高光譜數(shù)據(jù)后,將蘋果以果核為軸翻轉(zhuǎn)180°再采集另一面的數(shù)據(jù),每個(gè)蘋果對(duì)應(yīng)2幅高光譜圖像;特征區(qū)域選取時(shí),在每幅高光譜圖像距離中心點(diǎn)300像素的上下左右四個(gè)方位上選取4個(gè)邊長(zhǎng)為50像素的正方形區(qū)域,雙面共得8個(gè)正方形區(qū)域,取其平均光譜作為特征光譜進(jìn)行建模。徐璐[6]在進(jìn)行碭山梨可溶性固形物分析時(shí),每個(gè)樣本正反面各采集一幅高光譜圖像,然后對(duì)每幅圖像進(jìn)行去均值歸一化校正,取梨的完整區(qū)域作為感興趣區(qū)域,取正反兩面感興趣區(qū)域的平均光譜作為該梨的特征光譜。可見,目前研究中高光譜數(shù)據(jù)的采集都是基于人為輔助下的固定姿態(tài),感興趣區(qū)域的選取也是通過采集軟件人工進(jìn)行選取的,具有很大的主觀性,并且有的研究還對(duì)同一蘋果進(jìn)行多次數(shù)據(jù)采集,這距在流水線上實(shí)際應(yīng)用還有很大差距。
本研究提出了一種基于隨機(jī)姿態(tài)下的蘋果高光譜圖像感興趣區(qū)域選取方法,可實(shí)現(xiàn)感興趣區(qū)域的自動(dòng)選取,并基于提出的感興趣區(qū)域選取辦法,建立了基于高光譜成像技術(shù)的蘋果糖度無(wú)損檢測(cè)模型,并進(jìn)行了實(shí)測(cè)驗(yàn)證分析,對(duì)提出的感興趣區(qū)域選擇方法的正確性和有效性進(jìn)行了評(píng)價(jià),以期為流水線上自動(dòng)化檢測(cè)蘋果糖度提供參考。
為了使試驗(yàn)結(jié)果具有普適性,在市場(chǎng)上隨機(jī)購(gòu)買大小不一、形狀各異、著色特征不同(片紅和條紅)的煙臺(tái)富士蘋果作為研究對(duì)象,共135個(gè)。試驗(yàn)前將蘋果提前放置到實(shí)驗(yàn)室環(huán)境中12 h,待與室溫基本一致后,清洗每個(gè)蘋果,去除表面污物,用紙巾擦去多余水分,并編號(hào)備用。
1.2.1 高光譜成像系統(tǒng) 本研究所搭建的高光譜成像系統(tǒng)結(jié)構(gòu)示意圖見圖1,主要包括成像光譜儀(Pika XC2,Resonon,Bozeman,the United States)、鏡頭(焦距23 mm)、上位機(jī)采集軟件、移動(dòng)平臺(tái)和一對(duì)100 W 的鹵素?zé)舯↗CR 12V 100W BAU,Ushio,Tokyo,Japan),通過開關(guān)電源控制光源供應(yīng)與否。
圖1 高光譜成像系統(tǒng)結(jié)構(gòu)示意圖
成像光譜儀用于蘋果高光譜圖像數(shù)據(jù)的實(shí)時(shí)采集,采用線掃描方式,光譜范圍為400~1 000 nm,光譜分辨率為1.3 nm,光譜通道數(shù)為462,空間通道數(shù)為1 600,最大幀數(shù)為165 fps,位深度為12位。為了避免周圍雜散光影響,成像光譜儀、鏡頭、光源和移動(dòng)裝置需置于暗箱之內(nèi)。
1.2.2 糖度計(jì) 蘋果糖度采用杭州陸恒生物科技有限公司生產(chǎn)的LH-B55型數(shù)顯糖度計(jì)測(cè)定,該設(shè)備測(cè)量范圍為0.0~55.0°Brix,測(cè)量精度為±0.2°Brix,分辨率為0.1°Brix。
1.3.1 高光譜圖像數(shù)據(jù)采集 利用圖1所示高光譜成像系統(tǒng)采集高光譜圖像數(shù)據(jù)。成像光譜儀曝光時(shí)間設(shè)定為5.5 ms,幀率設(shè)定為150 Hz,增益設(shè)置為0;開啟光源預(yù)熱20 min后采集成像光譜儀的暗場(chǎng)高光譜數(shù)據(jù)和全反射高光譜數(shù)據(jù)并保存,用于后期光譜數(shù)據(jù)的黑白校正;然后將蘋果隨意放在流水線上的果杯內(nèi),以隨機(jī)姿態(tài)穿過成像光譜儀下方,用自行編寫的軟件自動(dòng)采集其高光譜數(shù)據(jù)。共采集到135幅高光譜圖像。
1.3.2 糖度數(shù)據(jù)采集 用刀在采集完高光譜圖像的蘋果赤道部位,每隔90°切下中心厚度約10 mm的切片,去除果皮,在切片中心取邊長(zhǎng)約20 mm的正方形果肉(圖2),將4塊果肉放入手動(dòng)榨汁器,擠壓出5 mL左右的汁液,攪拌均勻,作為原始測(cè)量樣本,然后用LH-B55數(shù)顯糖度計(jì)測(cè)定糖度。每份樣本重復(fù)測(cè)量3次,取其平均值作為該樣本最終的糖度測(cè)量值。
圖2 蘋果果肉選取區(qū)域
受蘋果表面曲率的影響,采集到的蘋果高光譜圖像不同區(qū)域的光譜強(qiáng)度不同,中心區(qū)域光譜強(qiáng)度較高,四周的光譜強(qiáng)度低(圖3);不同區(qū)域?qū)?yīng)的光譜數(shù)據(jù)如圖4所示,可見,不同區(qū)域的光譜曲線具有不同的特性。感興趣區(qū)域就是從所采集的蘋果高光譜圖像中選取一定大小的目標(biāo)區(qū)域,使其代表整個(gè)蘋果的光譜信息。
圖3 蘋果高光譜圖像不同區(qū)域展示
圖4 高光譜圖像不同區(qū)域的光譜曲線
1.4.1 感興趣區(qū)域選取的原則 ①為了保證運(yùn)算速度,感興趣區(qū)域不宜過大;②盡量選擇光譜強(qiáng)度大的區(qū)域,光譜強(qiáng)度越大其信噪比越高;③果梗和果萼區(qū)域因結(jié)構(gòu)比較復(fù)雜,光譜曲線與正常果肉區(qū)域不同,為了提高建立模型的穩(wěn)定性,需要剔除該區(qū)域;④由于高光譜圖像數(shù)據(jù)量較大,所采用感興趣區(qū)域選取方法的時(shí)間復(fù)雜度應(yīng)盡可能小。
1.4.2 感興趣區(qū)域選取流程 根據(jù)上述原則,提出如下流程進(jìn)行蘋果感興趣區(qū)域的選?。?/p>
(1)觀察圖4中6個(gè)不同區(qū)域的光譜曲線,可以發(fā)現(xiàn)其光譜強(qiáng)度值都在700 nm附近達(dá)到最大值,因此,選用各像素點(diǎn)700 nm的光譜強(qiáng)度值進(jìn)行后續(xù)閾值分割。
(2)將高光譜圖像各像素點(diǎn)按700 nm處的光譜強(qiáng)度值進(jìn)行直方圖統(tǒng)計(jì),獲得各像素點(diǎn)光譜強(qiáng)度值大小關(guān)系,按照百分比依次剔除光譜強(qiáng)度值低的像素點(diǎn),之后進(jìn)行一次形態(tài)學(xué)腐蝕操作,以去除果?;蚬鄥^(qū)域和背景中高反射率區(qū)域,觀察去除效果。
(3)觀察圖4中⑤號(hào)區(qū)域的光譜數(shù)據(jù),可以發(fā)現(xiàn)其光譜強(qiáng)度值過大,達(dá)到了最大值4 095,光譜數(shù)據(jù)嚴(yán)重失真,因此需將其剔除。產(chǎn)生這一現(xiàn)象的原因有兩方面,一是蘋果過大,引起光程變短,光照強(qiáng)度變大,從而引起曝光過度;二是蘋果本身光澤度較高,反射率大,也造成曝光過度。剔除的方法為采用700 nm附近波長(zhǎng)的光譜強(qiáng)度值進(jìn)行曝光過度判斷,當(dāng)光譜強(qiáng)度值大于3 900時(shí)則判定該像素點(diǎn)曝光過度。
(4)經(jīng)過上述步驟即可得到原始感興趣區(qū)域。為進(jìn)一步縮小感興趣區(qū)域,對(duì)原始感興趣區(qū)域內(nèi)的像素點(diǎn)按700 nm波長(zhǎng)的光譜強(qiáng)度值進(jìn)行直方圖統(tǒng)計(jì),分別取光譜強(qiáng)度值前10%、20%、30%、40%、50%、60%、70%、80%、90%、100%的像素點(diǎn)集合作為感興趣區(qū)域,建立不同大小感興趣區(qū)域的偏最小二乘回歸(partial least squares regression,PLSR)預(yù)測(cè)模型。其中,PLSR預(yù)測(cè)模型建立方法為:首先對(duì)感興趣區(qū)域內(nèi)的像素點(diǎn)進(jìn)行高光譜數(shù)據(jù)的黑白校正,計(jì)算感興趣區(qū)域的平均光譜作為蘋果的特征光譜;然后采用基于聯(lián)合X-Y距離的樣本劃分法(SPXY)[7]將數(shù)據(jù)集按3∶1分為校正集和測(cè)試集,用校正集建立特征光譜與蘋果糖度的PLSR模型,用測(cè)試集特征光譜對(duì)模型進(jìn)行實(shí)測(cè)驗(yàn)證。以測(cè)試集的測(cè)試集均方根誤差(root mean square error of prediction,RMSEP)作為最終感興趣區(qū)域大小選擇的依據(jù)。
本試驗(yàn)中使用的成像光譜儀每幀數(shù)據(jù)1 600個(gè)采樣點(diǎn),每個(gè)采樣點(diǎn)有462個(gè)波段的數(shù)據(jù),一個(gè)蘋果平均對(duì)應(yīng)750幀數(shù)據(jù),即一幅高光譜圖像的數(shù)據(jù)規(guī)模為1 600×462×750,考慮到光譜儀位深為12位,一個(gè)數(shù)據(jù)要占2個(gè)字節(jié),故一幅高光譜圖像的數(shù)據(jù)約1 GB,數(shù)據(jù)總量巨大,直接使用這些原始數(shù)據(jù)建模,不僅計(jì)算復(fù)雜度高,而且影響模型建立的速度和精度。為了減少計(jì)算量、降低數(shù)據(jù)計(jì)算復(fù)雜度,取感興趣區(qū)域的平均光譜作為特征光譜進(jìn)行預(yù)測(cè)模型的建立。
1.5.1 感興趣區(qū)域的黑白校正 確立蘋果高光譜圖像的感興趣區(qū)域后,為了提高信噪比,需要消除圖像采集過程中暗電流、背景光強(qiáng)度及光源分布不均勻等產(chǎn)生的噪聲的影響[8]。采用黑白校正對(duì)此類噪聲進(jìn)行消除:首先對(duì)反射率為99%的標(biāo)準(zhǔn)白色正板進(jìn)行圖像采集,得到全白的標(biāo)準(zhǔn)圖像W,然后關(guān)閉光源,擰上鏡頭蓋,采集全黑標(biāo)定圖像D[9]。黑白校正公式為:
其中,Rλ,n表示校正后的高光譜數(shù)據(jù),Sλ,n表示蘋果樣本原始高光譜數(shù)據(jù),Dλ,n表示暗場(chǎng)高光譜圖像數(shù)據(jù),Wλ,n表示全反射高光譜圖像數(shù)據(jù),λ、n表示在λ波長(zhǎng)下的第n個(gè)像素。
1.5.2 光譜數(shù)據(jù)預(yù)處理 采集的高光譜圖像數(shù)據(jù)中,往往還存在著儀器本身電噪聲、傳動(dòng)裝置運(yùn)動(dòng)過程中的震動(dòng)、周圍環(huán)境的雜散光、蘋果形態(tài)差異等產(chǎn)生的噪聲信號(hào),為了提高后續(xù)建立的回歸模型的穩(wěn)定性,就需要對(duì)采集到的高光譜數(shù)據(jù)進(jìn)行預(yù)處理以減弱此類噪聲信號(hào)的影響。本研究選用幾種常見的光譜預(yù)處理方法進(jìn)行對(duì)比分析,包括標(biāo)準(zhǔn)化處理、中心化處理、Savitzky-Golay(SG)多項(xiàng)式卷積[10]、一階導(dǎo)數(shù)(first-order derivative,D1)、多元散射校正(multiplicative scatter correction,MSC)[11]和標(biāo)準(zhǔn)正態(tài)變換(standard normal variate,SNV)[12]。
1.5.3 特征波段提取 由于高光譜數(shù)據(jù)分辨率較高,具有幾十甚至數(shù)百個(gè)波段,維度高且波段間的相關(guān)性較高,數(shù)據(jù)冗余,直接用全波段進(jìn)行模型建立,不僅計(jì)算量大,有些無(wú)用波段的數(shù)據(jù)還會(huì)影響最終模型的預(yù)測(cè)精度,因此需要對(duì)特征波段數(shù)據(jù)進(jìn)行提取,以提高模型的運(yùn)算時(shí)間和預(yù)測(cè)精度[13,14]。本研究采用連續(xù)投影算法(successive projections algorithm,SPA)[15-17]、主成分分析(principal component analysis,PCA)[18,19]、反向區(qū)間偏最小二乘法(backward interval partial least squares,BiPLS)[20,21]、蟻群算法(ant colony optimization,ACO)[22]和競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling,CARS)[23,24]五種方法進(jìn)行特征波段數(shù)據(jù)的提取,并對(duì)其提取效果進(jìn)行比較分析。
1.5.4 模型建立 采用目前光譜分析中應(yīng)用主流的偏最小二乘回歸(PLSR)[25,26]方法建立蘋果高光譜數(shù)據(jù)與糖度之間的回歸模型。
試驗(yàn)發(fā)現(xiàn),當(dāng)剔除60%光譜強(qiáng)度值低的像素點(diǎn)后,即選取光譜強(qiáng)度值高的前40%像素點(diǎn)區(qū)域,可以很好地將果?;蚬鄥^(qū)域及背景亮斑區(qū)域去除,同時(shí)還可將光譜強(qiáng)度值低的蘋果區(qū)域和普通背景區(qū)域去除;用700 nm波長(zhǎng)的光譜強(qiáng)度值大于3 900的閾值判斷,可以很好地去除曝光過度區(qū)域。本試驗(yàn)方法只采用了兩次閾值分割和一次腐蝕操作即實(shí)現(xiàn)了感興趣區(qū)域的選取,簡(jiǎn)單快速。選取的蘋果原始感興趣區(qū)域的掩膜如圖5所示。
圖5 選取的蘋果原始感興趣區(qū)域的掩膜
圖6是蘋果原始感興趣區(qū)域光譜強(qiáng)度值前10%、20%、30%、40%、50%、60%、70%、80%、90%、100%的像素點(diǎn)集合掩膜。
圖6 不同大小感興趣區(qū)域掩膜
建立不同大小感興趣區(qū)域的PLSR預(yù)測(cè)模型,模型測(cè)試集的RMSEP變化趨勢(shì)如圖7所示,可以看出,隨感興趣區(qū)域的擴(kuò)大,RMSEP減小,這是由于感興趣區(qū)域越大越能代表整個(gè)蘋果的光譜信息;當(dāng)取原始感興趣區(qū)域光譜強(qiáng)度前70%的區(qū)域時(shí),RMSEP最??;選取區(qū)域再擴(kuò)大,RMSEP變化不明顯,這是由于繼續(xù)擴(kuò)大感興趣區(qū)域雖然更能表征整個(gè)蘋果的信息,但卻引入了噪聲數(shù)據(jù),從而導(dǎo)致RMSEP變化不明顯。因此,取原始感興趣區(qū)域中前70%光譜強(qiáng)度值的區(qū)域作為最終的蘋果感興趣區(qū)域,以其平均光譜作為后續(xù)模型建立的原始數(shù)據(jù)。
圖7 PLSR模型預(yù)測(cè)集均方根誤差隨感興趣區(qū)域選取大小的變化趨勢(shì)
2.3.1 異常樣本剔除 由于人為操作失誤、周圍環(huán)境變化、儀器本身原因,可能會(huì)使采集到的高光譜數(shù)據(jù)或蘋果糖度數(shù)據(jù)異常,進(jìn)而對(duì)最終建立模型的精度產(chǎn)生極大影響,因此需對(duì)這部分異常數(shù)據(jù)進(jìn)行剔除。本研究采用的剔除方法為蒙特卡洛交叉驗(yàn)證法[26](Monte Carlo cross validation,MCCV),算法步驟為:隨機(jī)從總樣本集中選取80%的數(shù)據(jù)作為校正集,剩下20%作為測(cè)試集;在校正集建立PLSR模型,然后將測(cè)試集數(shù)據(jù)代入,得到預(yù)測(cè)值,共進(jìn)行2 000次循環(huán),得到每個(gè)樣本的一組預(yù)測(cè)值;計(jì)算各樣本預(yù)測(cè)值的均值(Mean)和標(biāo)準(zhǔn)差(STD),做Mean-STD圖(圖8);以Mean的閾值為1.5、STD的閾值為0.5剔除均值大于1.5及標(biāo)準(zhǔn)差大于0.5的樣本,共剔除異常樣本11個(gè),其編號(hào)分別為5、11、22、26、45、54、55、59、61、111、112,用剩余的124個(gè)樣本數(shù)據(jù)進(jìn)行后續(xù)分析。
圖8 均值-方差圖
2.3.2 樣本集劃分 用SPXY方法將剔除異常樣本后余下的124個(gè)樣本劃分為校正集和測(cè)試集,劃分比例為3∶1,其糖度數(shù)據(jù)分布情況如表1所示??梢姡嵌茸畲笾岛妥钚≈稻谛U瘍?nèi),測(cè)試集標(biāo)準(zhǔn)差小于校正集,數(shù)據(jù)劃分合理。
表1 校正集和測(cè)試集糖度數(shù)據(jù)分布 (°Brix)
由于光譜曲線兩端的波長(zhǎng)光譜強(qiáng)度較低,信噪比較低,在實(shí)際運(yùn)用時(shí)去除兩端數(shù)據(jù),只保留中間436~940 nm的數(shù)據(jù),共380個(gè)波段。之后分別采用標(biāo)準(zhǔn)化、去中心化、S-G多項(xiàng)式卷積(2階33點(diǎn),為多次試驗(yàn)的最優(yōu)值)、一階導(dǎo)數(shù)、多元散射校正(MSC)和標(biāo)準(zhǔn)正態(tài)變換(SNV)方法對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,建立預(yù)處理數(shù)據(jù)與蘋果糖度的PLSR模型,結(jié)果(表2)顯示,經(jīng)SNV方法預(yù)處理后建立的PLSR模型RMSEP最低,預(yù)測(cè)精度最高,可有效去除噪聲信號(hào),因此選用SNV方法對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理。
表2 高光譜數(shù)據(jù)不同預(yù)處理方法對(duì)模型精度的影響
2.5.1 連續(xù)投影算法(SPA) SPA是一種前向的特征波段選擇方法,能夠利用向量空間的簡(jiǎn)單運(yùn)算使所選變量之間的共線性最小,被廣泛應(yīng)用于光譜特征波段的提取中。將校正集數(shù)據(jù)輸入SPA,設(shè)定最大提取波段數(shù)為30,對(duì)交叉驗(yàn)證均方根誤差(root mean square error of cross validation,RMSECV)隨特征波段選取數(shù)目的變化進(jìn)行分析,結(jié)果(圖9)發(fā)現(xiàn),當(dāng)選取的波段數(shù)為20時(shí),RMSECV達(dá)到最小值。此時(shí)選取的特征波段見圖10。
圖9 連續(xù)投影算法的交叉驗(yàn)證均方根誤差隨特征波段選取數(shù)目的變化趨勢(shì)
圖10 選取的特征波段分布
2.5.2 主成分分析(PCA) PCA可將原有高維度的光譜數(shù)據(jù)投影到另一個(gè)低維度的特征空間中,用幾個(gè)綜合性強(qiáng)的變量來(lái)替代眾多的原始變量[17],進(jìn)而達(dá)到對(duì)特征數(shù)據(jù)的提取。在此算法中,提取的主成分個(gè)數(shù)(k)至關(guān)重要,k值過小會(huì)導(dǎo)致提取的主成分遺失原始高光譜數(shù)據(jù)中的部分重要信息,k值過大則會(huì)導(dǎo)致提取的主成分過多,達(dá)不到降低計(jì)算量的目的。通過RMSECV隨k值的變化趨勢(shì)(圖11)可以看出,隨著k值的增加,RMSECV逐漸減小,當(dāng)k值達(dá)到41后,RMSECV變化不再顯著,且k值過大,模型計(jì)算的復(fù)雜度也會(huì)增大,因此,最終選取41個(gè)主成分,其累計(jì)貢獻(xiàn)率大于99.99%。
圖11 主成分分析中交叉驗(yàn)證均方根誤差隨主成分?jǐn)?shù)目的變化趨勢(shì)
2.5.3 反向區(qū)間偏最小二乘法(BiPLS) BiPLS是對(duì)全波段進(jìn)行劃分,選取其中最具代表性的光譜區(qū)間組合。BiPLS算法中子區(qū)間個(gè)數(shù)(n)的確定至關(guān)重要,直接影響后續(xù)模型的精度。因此,本研究設(shè)置從5到60,步長(zhǎng)為5,共12個(gè)取值,通過分析模型的RMSECV隨n值變化(圖12),發(fā)現(xiàn)當(dāng)n為25時(shí)RMSECV值最小。以初始子區(qū)間個(gè)數(shù)為25,設(shè)計(jì)不斷增加去除子區(qū)間的個(gè)數(shù),以進(jìn)一步優(yōu)化子區(qū)間數(shù)目,結(jié)果(圖13)顯示,隨去除子區(qū)間數(shù)目的增加,RMSECV整體趨勢(shì)為先下降后上升,在去除17個(gè)子區(qū)間后,RMSECV最小。此時(shí)剩余8個(gè)子區(qū)間即為最終選定的區(qū)間,其編號(hào)為11、13、15、16、18、20、22和24,波段分布見圖14。
圖12 反向區(qū)間偏最小二乘法中交叉驗(yàn)證均方根誤差隨子區(qū)間數(shù)目的變化趨勢(shì)
圖13 交叉驗(yàn)證均方根誤差隨去除子區(qū)間數(shù)目的變化趨勢(shì)
圖14 BiPLS最終選定子區(qū)間的分布
2.5.4 蟻群算法(ACO) ACO是一種尋找優(yōu)化路徑的概率型算法,具有信息正反饋、分布式計(jì)算和貪婪啟發(fā)式搜索的特征[21]。采用ACO在全波段中進(jìn)行特征波段的篩選時(shí),算法中的超參數(shù)需經(jīng)過多次試驗(yàn)確定,因此,本試驗(yàn)設(shè)置最大迭代次數(shù)為50,種群大小為40,最大選取波段數(shù)為50,揮發(fā)因子為0.65,顯著因子為0.01,訓(xùn)練完成后得到每個(gè)波段被選擇的次數(shù)(圖15),將波段按照被選次數(shù)的多少進(jìn)行排序,依次對(duì)排序前60的波段進(jìn)行PLSR建模,發(fā)現(xiàn)取前38個(gè)被選次數(shù)多的波段進(jìn)行建模時(shí),RMSECV最小。因此,這38個(gè)波段即為選定的特征波段,其在光譜曲線上的分布如圖16所示。
圖15 蟻群算法中波段被選次數(shù)分布
圖16 蟻群算法選定的特征波段的分布
2.5.5 競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(CARS)CARS方法可利用PLSR的回歸系數(shù)簡(jiǎn)單有效地選取全光譜中的最優(yōu)波段組合。本試驗(yàn)利用校正集數(shù)據(jù),采用CARS算法,設(shè)置最大迭代次數(shù)為100,進(jìn)行特征波段的選取,結(jié)果(圖17)顯示,隨著迭代次數(shù)的增加,保留的波段數(shù)呈指數(shù)函數(shù)減少,其中前期為變量的粗選,后期為精選;RMSECV整體呈先下降后上升的變化趨勢(shì),在第20次循環(huán)采樣時(shí)RMSECV達(dá)到最小值,此時(shí)對(duì)應(yīng)的保留波段數(shù)目為40個(gè),即為選出的特征波段,其分布如圖18所示。
圖17 競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法中變量個(gè)數(shù)和RMSECV隨迭代次數(shù)的變化趨勢(shì)
圖18 CARS算法選出的特征波段的分布
表3 不同方法建立模型的預(yù)測(cè)結(jié)果
圖19 校正集預(yù)測(cè)結(jié)果散點(diǎn)圖
本研究提出了一種適用于任意姿態(tài)蘋果的高光譜圖像感興趣區(qū)域選取方法,與以往對(duì)固定姿態(tài)蘋果圖像人工選取感興趣區(qū)域不同,本方法更適宜流水線的自動(dòng)化要求。
該方法首先采用高光譜圖像各像素點(diǎn)700 nm波長(zhǎng)的光譜強(qiáng)度值進(jìn)行閾值分割,選取700 nm光譜強(qiáng)度值前40%的區(qū)域進(jìn)行形態(tài)學(xué)腐蝕操作,去除背景區(qū)域、果?;蚬鄥^(qū)域及光譜強(qiáng)度較低的區(qū)域,之后再去除保留區(qū)域中700 nm光譜強(qiáng)度值大于3 900的像素點(diǎn),從而獲得蘋果原始感興趣區(qū)域;然后,建立不同大小感興趣區(qū)域?qū)?yīng)的特征光譜與蘋果糖度的PLSR模型,根據(jù)預(yù)測(cè)精度進(jìn)一步縮小感興趣區(qū)域,最終選取原始感興趣區(qū)域光譜強(qiáng)度前70%的區(qū)域作為蘋果感興趣區(qū)域。
總之,本研究建立的蘋果感興趣區(qū)域選擇方法準(zhǔn)確性和有效性較高,可為后續(xù)基于高光譜成像技術(shù)的蘋果在線分級(jí)系統(tǒng)的設(shè)計(jì)奠定理論基礎(chǔ),具有重要的實(shí)用價(jià)值。