崔江南,付蕓,趙森,鄧澤宇,王天樞
(長(zhǎng)春理工大學(xué) 光電工程學(xué)院,長(zhǎng)春 130022)
番茄葉霉病又稱(chēng)黑霉病,是由黃褐孢霉菌引起的番茄病害,主要危害葉片,嚴(yán)重時(shí)也危及莖、花和果實(shí)。番茄葉霉病一旦發(fā)生,迅速擴(kuò)展,一般造成20%~30%的減產(chǎn),嚴(yán)重時(shí)可達(dá)50%以上,給番茄生產(chǎn)帶來(lái)巨大的經(jīng)濟(jì)損失。傳統(tǒng)的診斷方法主要以人工觀察為主,借助于農(nóng)學(xué)人員的判斷和農(nóng)民自身的經(jīng)驗(yàn),診斷結(jié)果易受主觀因素的影響,效率低,誤差大,經(jīng)常會(huì)延誤治理的最佳時(shí)機(jī)。因此,迫切需要一種快速、無(wú)損、準(zhǔn)確的病害檢測(cè)手段。
近年來(lái),越來(lái)越多的學(xué)者將高光譜成像技術(shù)應(yīng)用于農(nóng)作物病害檢測(cè)的相關(guān)研究中。例如水稻稻瘟病、水稻紋枯?。?-2]、小麥白粉病、小麥條銹?。?-4]、玉米種子質(zhì)量[5-6]等糧食作物類(lèi)的研究;黃瓜霜霉?。?],茄子[8]、菠菜[9]的凍傷,柑橘黃龍病[10],感染黃瓜綠斑駁病毒的西瓜種子[11],藍(lán)莓腐爛?。?2]等果蔬作物類(lèi)的檢測(cè)。
在番茄病害檢測(cè)方面,Gu Qing等人[13]利用高光譜成像技術(shù)對(duì)受番茄斑點(diǎn)枯萎病毒(Tomato spotted wilt virus,TSWV)侵染初期的煙草進(jìn)行了檢測(cè)。結(jié)果表明,機(jī)器學(xué)習(xí)方法結(jié)合波長(zhǎng)選擇算法可用于TSWV的早期檢測(cè)。Nik Susic等人[14]采用高光譜成像方法對(duì)被線蟲(chóng)侵染和水分缺乏脅迫的番茄植株開(kāi)展了研究。結(jié)果表明,偏最小二乘法和支持向量機(jī)分類(lèi)器在區(qū)分水分充足或缺水的植物時(shí)準(zhǔn)確率高達(dá)100%,在識(shí)別線蟲(chóng)侵染的植物時(shí)準(zhǔn)確率在90%~100%之間。
本文以番茄的葉霉病為研究對(duì)象,利用高光譜成像系統(tǒng)分別采集健康、輕微病變、嚴(yán)重病變等三類(lèi)葉片樣本的高光譜數(shù)據(jù)。首先,運(yùn)用PCA和SPA提取數(shù)據(jù)特征;然后,分別利用GSA、PSO和GA三種算法對(duì)SVM法的建模參數(shù)c、g進(jìn)行尋優(yōu);最后,分別將基于全譜數(shù)據(jù)、PCA提取的特征變量、SPA提取的特征變量,以及SPA-PCA提取的特征變量作為SVM模型的輸入,依次構(gòu)建了4種番茄葉霉病的分類(lèi)模型。通過(guò)對(duì)比分析3種尋優(yōu)算法及4種分類(lèi)模型的準(zhǔn)確率,確定識(shí)別番茄葉霉病的最佳分類(lèi)模型,為病害的早期防治和病害程度的監(jiān)測(cè)提供理論依據(jù)。
本實(shí)驗(yàn)過(guò)程中所用到的番茄葉片均來(lái)自于吉林省農(nóng)業(yè)科學(xué)院經(jīng)濟(jì)植物研究所。于2019年10月21日進(jìn)入果樹(shù)種植基地,尋找發(fā)生病害的番茄葉片,采摘后的所有病變?nèi)~片均經(jīng)過(guò)病理檢驗(yàn),保證其僅含有單一的葉霉病。按照葉片患病區(qū)域的大小劃分病害嚴(yán)重等級(jí),進(jìn)行分類(lèi)后裝入不同的保鮮袋密封保存,并放入置有冰塊的便攜式保溫箱中保存,然后迅速送往實(shí)驗(yàn)室進(jìn)行高光譜數(shù)據(jù)采集。通過(guò)篩選最終得到葉霉病嚴(yán)重病變?nèi)~片148片、輕微病變?nèi)~片160片、健康葉片152片,三類(lèi)不同病害程度的番茄葉片如圖1所示。
圖1 三類(lèi)不同病害程度的番茄葉片
高光譜圖像的采集設(shè)備是由上海五鈴光電科技有限公司生產(chǎn)的HSI-VNIR(400~1 000 nm)型推掃式可見(jiàn)光-近紅外高光譜成像系統(tǒng),分光儀采用透射式光柵分光,光譜范圍為400~1 000 nm,光譜分辨率為2.8 nm,光源為21 V/200 W穩(wěn)定輸出鹵素?zé)?。系統(tǒng)主要包括成像光譜儀、CCD相機(jī)、光源、電控位移平臺(tái)、暗箱和計(jì)算機(jī)等部件,高光譜成像系統(tǒng)裝置如圖2所示。
圖2 可見(jiàn)光-近紅外高光譜成像系統(tǒng)
為了減少環(huán)境噪聲和暗電流對(duì)光譜數(shù)據(jù)采集的影響,高光譜數(shù)據(jù)采集前,首先對(duì)成像裝置預(yù)熱30 min左右,目的是消除基線漂移對(duì)圖像質(zhì)量的影響。預(yù)熱完畢后,打開(kāi)圖像采集軟件,對(duì)圖像采集的相關(guān)參數(shù)進(jìn)行設(shè)置,以保證圖像采集質(zhì)量且避免失真。設(shè)置完畢后,手動(dòng)將樣品放置在載物臺(tái)上開(kāi)始圖像采集,當(dāng)葉片整個(gè)輪廓完整出現(xiàn)在采集軟件窗口中央時(shí),點(diǎn)擊停止按鈕,此時(shí)樣品高光譜圖像采集完畢,并被保存在預(yù)先設(shè)置的存儲(chǔ)路徑中,每個(gè)葉片均采集10次,取10次圖像數(shù)據(jù)的平均值作為最終數(shù)據(jù),如此重復(fù)完成所有樣本圖像數(shù)據(jù)的采集。
所有待測(cè)樣本的高光譜圖像數(shù)據(jù)采集完畢后,為了避免光照不均勻和暗電流的影響,需要對(duì)所有原始高光譜圖像進(jìn)行黑白標(biāo)定。在相同的采集環(huán)境下,掃描標(biāo)準(zhǔn)白色校正板得到全白的標(biāo)定圖像,蓋上相機(jī)鏡頭后蓋得到全黑的標(biāo)定圖像,然后按照公式(1)對(duì)原始圖像進(jìn)行校正:
式中,Rc為校正后的高光譜圖像;Rraw為利用高光譜圖像采集系統(tǒng)采集到的原始高光譜圖像;Rwhite為利用標(biāo)準(zhǔn)白色校正板采集得到的全白的標(biāo)定圖像(反射率接近99%);Rdark為關(guān)閉相機(jī)鏡頭進(jìn)行圖像采集得到的全黑的標(biāo)定圖像(反射率接近0%)。校正工具為高光譜采集系統(tǒng)自帶的軟件HSI Analyzer。
為了進(jìn)一步降低噪聲干擾,去除高光譜數(shù)據(jù)首尾各30個(gè)波段,得到400~900 nm波長(zhǎng)范圍內(nèi)共462個(gè)波長(zhǎng)的可見(jiàn)光高光譜數(shù)據(jù)。將剔除異常樣本后的光譜數(shù)據(jù)按照3∶1的比例劃分?jǐn)?shù)據(jù)集,得到訓(xùn)練集樣本315個(gè),測(cè)試集樣本105個(gè)。
為提取病害葉片的完整光譜信息,根據(jù)采集樣本病斑特征均勻分布的特點(diǎn),以葉片葉脈為中心,利用ENVI 5.3軟件選取靠近葉尖部位的100像素×100像素的區(qū)域作為光譜信息采集的感興趣區(qū)域(region of interest,ROI),最終采集的番茄樣本的原始光譜信息如圖3所示。
圖3 三類(lèi)番茄葉片的原始光譜信息
為了降低環(huán)境、儀器、測(cè)量方法等因素引入的干擾,利用MATLAB 2019b軟件自帶的mapminmax歸一化函數(shù)對(duì)所有高光譜數(shù)據(jù)均進(jìn)行降噪平滑處理。為了進(jìn)一步研究不同病害程度葉片光譜信息的差異,取每組樣本反射率的平均值,得到平均光譜反射率曲線。從圖4可以看出,番茄葉霉病不同病害程度的光譜反射率存在差異,說(shuō)明光譜反射率信息可以作為診斷番茄葉霉病病害的依據(jù),但就輕微病變和嚴(yán)重病變兩類(lèi)番茄葉片而言,兩條光譜曲線存在很大的相似性,可能導(dǎo)致最終兩類(lèi)番茄葉片的分類(lèi)結(jié)果出現(xiàn)混淆,使分類(lèi)精度變差。
圖4 三類(lèi)番茄葉片的平均光譜曲線
為了解決高光譜數(shù)據(jù)波段多、數(shù)據(jù)量大而產(chǎn)生的數(shù)據(jù)相關(guān)、冗余、共線性等問(wèn)題,降低模型的復(fù)雜度,提高建模精度和計(jì)算速度,運(yùn)用主成分分析(principle component analysis,PCA)和連續(xù)投影算法(successive projection algorithm,SPA)對(duì)高光譜數(shù)據(jù)進(jìn)行特征變量的提取。
PCA是最常用的數(shù)據(jù)降維方法之一,它保持了數(shù)據(jù)中對(duì)方差貢獻(xiàn)最大的特征,可提取數(shù)據(jù)的主要特征分量,常用于高維數(shù)據(jù)的降維。SPA是一種使矢量空間共線性最小化的前向變量選擇算法,它的優(yōu)勢(shì)在于提取全波段的幾個(gè)特征波長(zhǎng),能夠消除原始光譜矩陣中冗余信息,可用于光譜特征波長(zhǎng)的篩選。
支持向量機(jī)(support vector machine,SVM)是由Vapnik領(lǐng)導(dǎo)的AT&T bell實(shí)驗(yàn)室研究小組在1995年提出的一種基于統(tǒng)計(jì)學(xué)習(xí)理論的分類(lèi)方法,是一種有監(jiān)督的機(jī)器學(xué)習(xí)方法。因SVM具有擬合精度高、學(xué)習(xí)能力強(qiáng)、訓(xùn)練時(shí)間短、選擇參數(shù)少、泛化能力好和全局最優(yōu)等特點(diǎn),因而,在解決小樣本、高維數(shù)和非線性等問(wèn)題上具有很大的優(yōu)勢(shì)。
懲罰因子c和核函數(shù)中的參數(shù)g是影響支持向量機(jī)性能的主要參數(shù),常見(jiàn)的尋優(yōu)算法有:網(wǎng)格搜索算法(GSA)、粒子群算法(PSO)和遺傳算法(GA)。本文將利用SVM建立番茄葉霉病的識(shí)別模型,并通過(guò)3種尋優(yōu)算法確定SVM建模的最優(yōu)參數(shù),以發(fā)揮SVM分類(lèi)器的最佳性能。
采用PCA算法對(duì)全部樣本的高光譜數(shù)據(jù)進(jìn)行降維,得到前10個(gè)主成分(principle component,PC)的特征值和累計(jì)貢獻(xiàn)率,如表1所示。
表1 前10個(gè)主成分特征值和累計(jì)貢獻(xiàn)率
其中,PC1的貢獻(xiàn)率最大,為76.30%,前2個(gè)PC的累計(jì)貢獻(xiàn)率為94.57%,之后累計(jì)貢獻(xiàn)率不斷增加,但增加幅度減小,即所含的有用信息越來(lái)越少。因此,選擇前2個(gè)PC作為特征變量建模。
利用SPA算法提取特征波長(zhǎng),不僅能夠提取樣本中的有效信息,還能夠大幅度地減少構(gòu)建模型的計(jì)算量和復(fù)雜度。本研究中設(shè)置特征變量的數(shù)量范圍為10~50,利用MATLAB 2019b軟件運(yùn)行SPA算法對(duì)預(yù)處理后的光譜進(jìn)行特征波長(zhǎng)的篩選。根據(jù)均方根誤差(RMSE)選擇變量的數(shù)量,如圖5所示。當(dāng)變量個(gè)數(shù)為14時(shí),得到最低值0.399 09,符合顯著性水平α=0.25的F檢驗(yàn),因此選擇14個(gè)特征變量,如表2所示,后續(xù)將以此14個(gè)波長(zhǎng)作為特征變量進(jìn)行建模。
圖5 SPA選擇不同變量數(shù)的RMSE分布圖
表2 SPA特征波長(zhǎng)選擇結(jié)果
通過(guò)SPA算法選取番茄葉霉病樣本的特征波長(zhǎng)數(shù)為14個(gè),光譜特征維數(shù)仍然很高,為了進(jìn)一步減少變量之間可能存在的相關(guān)性或共線性,獲取更少的特征變量,本文利用PCA對(duì)SPA選取的特征變量進(jìn)一步降維,結(jié)果如表3所示。由于只有前2個(gè)PC的特征值大于1,但累計(jì)貢獻(xiàn)率沒(méi)有達(dá)到85%,為了盡可能多地保留原始的光譜信息,所以選取前6個(gè)PC作為特征變量進(jìn)行建模。
表3 前6個(gè)主成分特征值和累計(jì)貢獻(xiàn)率
分別以全譜、PCA、SPA和SPA-PCA提取的特征變量作為SVM建模的輸入,建立番茄葉霉病的全譜-SVM、PCA-SVM、SPA-SVM和SPA-PCASVM的分類(lèi)模型,核函數(shù)選用RBF,每個(gè)模型分別使用GSA、PSO和GA獲取懲罰因子c和核參數(shù)g的最優(yōu)值,三種算法的尋優(yōu)結(jié)果如圖6所示。
其中,圖6(a)、圖 6(b)為GSA算法的參數(shù)尋優(yōu)結(jié)果,根據(jù)經(jīng)驗(yàn),利用網(wǎng)格搜索算法進(jìn)行參數(shù)優(yōu)化的SVM其懲罰參數(shù)c和高斯核函數(shù)參數(shù)g的取值范圍為 2-10≤c≤210,2-10≤g≤210,參數(shù)設(shè)置如下:步長(zhǎng)cstep=0.5,gstep=0.5,其余參數(shù)默認(rèn)。圖6(c)為PSO算法的參數(shù)尋優(yōu)結(jié)果,根據(jù)經(jīng)驗(yàn),利用粒子群算法進(jìn)行參數(shù)優(yōu)化的SVM其懲罰參數(shù)c和高斯核函數(shù)參數(shù)g的取值范圍為0.1≤c≤100,0.1≤g≤10,參數(shù)設(shè)置如下:初始種群數(shù)量 pop=20,加速系數(shù)c1=1.5,c2=1.7,最大迭代次數(shù)T=200,其余參數(shù)默認(rèn);圖6(d)為GA算法的參數(shù)尋優(yōu)結(jié)果,根據(jù)經(jīng)驗(yàn),利用遺傳算法進(jìn)行參數(shù)優(yōu)化的SVM其懲罰參數(shù)c和高斯核函數(shù)參數(shù)g的取值范圍為 0.1≤c≤100,0.1≤g≤10,參數(shù)設(shè)置如下:初始種群數(shù)量pop=20,最大迭代次數(shù)T=100,其余參數(shù)默認(rèn)。
圖6 三種不同尋優(yōu)算法的尋優(yōu)結(jié)果
各分類(lèi)模型預(yù)測(cè)準(zhǔn)確率如表4所示。
表4 SVM各分類(lèi)模型預(yù)測(cè)準(zhǔn)確率
由上述分類(lèi)結(jié)果可知,所有模型的總體預(yù)測(cè)準(zhǔn)確率均高于80%,精度較好,模型對(duì)健康樣本的分類(lèi)準(zhǔn)確度最高,對(duì)病變樣本的分類(lèi)準(zhǔn)確度稍差。PCA-SVM模型的總體預(yù)測(cè)精度略低于全譜-SVM模型,但輸入變量數(shù)由462降為2,在大幅度降低特征維數(shù)、縮短運(yùn)行時(shí)間的同時(shí),也丟失了某些特征信息,從而導(dǎo)致分類(lèi)精度的下降。SPA-SVM模型相比于全譜-SVM模型,特征波段數(shù)減小到14,在維持原有健康樣本的預(yù)測(cè)精度時(shí),對(duì)輕微病變樣本的檢測(cè)精度大幅提升,可能是提取到了健康樣本與病變樣本存在差異的特征波段,從而使分類(lèi)精度提高,但對(duì)嚴(yán)重病變的預(yù)測(cè)結(jié)果依舊很差。正常情況下,提取特征變量后會(huì)丟失原始樣本的某些有效信息,使分類(lèi)精度降低,但SPA-PCA-SVM模型相比于全譜-SVM模型,健康樣本的預(yù)測(cè)精度有所提升,可能是在特征提取的過(guò)程中去除了原始健康樣本中的噪聲,提高了分類(lèi)精度。綜上所述,從每類(lèi)分類(lèi)準(zhǔn)確率和總體分類(lèi)準(zhǔn)確率來(lái)看,最優(yōu)模型為SPAPCA-SVM模型,該模型在犧牲少許精度的同時(shí),大幅度減少了輸入的特征變量數(shù),提高了計(jì)算速度,能夠最大程度地區(qū)分病變樣本與健康樣本,但對(duì)不同病變程度的樣本的區(qū)分效果較差,SPA-PCA-SVM模型最優(yōu)分類(lèi)結(jié)果如圖7所示。
圖7 SPA-PCA-SVM模型的最優(yōu)分類(lèi)結(jié)果
本文以不同病變程度的番茄葉霉病葉片樣本為研究對(duì)象,采用不同的算法提取特征變量,構(gòu)建了各種番茄葉霉病的識(shí)別模型,主要結(jié)論如下:
(1)所有模型都對(duì)健康樣本的識(shí)別效果較好,而對(duì)不同病變程度的葉片的分類(lèi)效果有待提高。
(2)PCA、SPA和SPA-PCA等算法均能對(duì)高光譜數(shù)據(jù)進(jìn)行特征變量的提取,從而大幅度地降低數(shù)據(jù)的冗余度,減少參與建模的數(shù)據(jù)量,同時(shí),還能較好地保留樣本的特征信息。結(jié)果表明,SPA-PCA-SVM模型的分類(lèi)效果最優(yōu),建模輸入變量少,檢測(cè)精度較高,運(yùn)行速度較快。
(3)從對(duì)番茄葉霉病的尋優(yōu)結(jié)果可知,GSA的運(yùn)行時(shí)間最少,GA次之,PSO的運(yùn)行時(shí)間最長(zhǎng)。從分類(lèi)準(zhǔn)確率上來(lái)看,GSA的分類(lèi)準(zhǔn)確率較高,在大多數(shù)情況下,PSO和GA的分類(lèi)精度與GSA接近,但耗時(shí)較長(zhǎng)。綜合考慮,在利用SVM進(jìn)行建模時(shí),參數(shù)尋優(yōu)函數(shù)可優(yōu)先選擇GSA。
總之,高光譜成像技術(shù)可應(yīng)用于番茄葉霉病的無(wú)損檢測(cè)。今后將從數(shù)據(jù)預(yù)處理、特征變量提取、建模方法等方面加以改進(jìn),以提高分類(lèi)精度。此外,由于僅通過(guò)肉眼根據(jù)患病區(qū)域大小來(lái)定義標(biāo)簽,存在人為誤差,導(dǎo)致標(biāo)簽精度不高,嚴(yán)重影響了分類(lèi)準(zhǔn)確率,后續(xù)將借助病變多層分級(jí)、聚類(lèi)分析和葉綠素定量分析等手段提高標(biāo)簽精度。大量研究表明,高光譜圖像中的紋理和顏色等特征也包含了重要信息,接下來(lái)將對(duì)光譜特征與圖像特征進(jìn)行融合,進(jìn)一步提升分類(lèi)效果。