鮑文霞 趙 健 張東彥 梁 棟
(安徽大學農業(yè)生態(tài)大數據分析與應用技術國家地方聯(lián)合工程研究中心, 合肥 230601)
農作物病蟲害是制約我國農業(yè)生產的主要障礙,是影響作物產量的主要因素之一,同時也是限制我國農業(yè)優(yōu)質、高效持續(xù)發(fā)展的主導因素[1-3]。小麥作為我國的主要糧食作物,其各種病害尤其是白粉病對其產量和質量具有較大的影響[4],針對小麥白粉病,一般通過噴灑農藥來進行防治,過量的農藥施用導致農產品中殘留超標,影響農產品質量;同時,也對環(huán)境造成巨大的負擔,對人力、財力造成巨大的浪費。為了能正確、適量地使用農藥,高效地防治病蟲害,需要準確、實時地識別出病害的嚴重程度[5]。
近年來,圖像處理、模式識別等技術被廣泛應用于農作物病害識別領域,并取得了顯著效果[6-21]。但仍存在一些問題:大多研究針對農作物不同病害的識別,對于農作物病害嚴重程度的研究相對較少;對于特征提取,大多直接提取顏色、紋理、形狀等特征,而沒有考慮由于樣本圖像拍攝視角變化和小麥葉片本身彎曲、傾斜、缺損等而容易造成分類識別率下降的問題;大多采用支持向量機、BP神經網絡等方法完成對農作物病害圖像的識別,這些傳統(tǒng)的機器學習方法的目標函數主要采用歐氏距離的度量方法,它將輸入樣本空間看成是各向同性的,然而各向同性假設在眾多實際應用中不成立,不能準確地反映數據樣本維度分量之間的潛在關系。本文在完成病害圖像病斑分割的基礎上,提出一種基于滑窗最大值(Moving window maximum, MWM)的病斑圖像特征提取方法,并且引入對樣本數據具有更好適應性的橢圓型度量,提出一種度量學習方法,實現(xiàn)對小麥白粉病嚴重程度的識別,為農作物葉片病害的嚴重程度智能識別提供參考。
小麥葉部病害圖像樣本均在北京市農林科學院試驗基地采集。輕度、中度和重度3種嚴重程度的白粉病葉片圖像共210幅。隨機選取其中的150幅作為訓練樣本,另外60幅作為測試樣本,具體樣本分布見表1。按照病斑面積與整個葉片面積的比值R來界定病害嚴重程度[21]:0
病斑分割是農作物葉部病害識別的重要環(huán)節(jié),其分割效果對病斑特征提取和病害識別的影響顯著。以圖2a為例,先將顏色空間轉換到Lab空間,通過觀察,樣本圖像a、b分量的灰度直方圖存在較明顯的兩個尖峰,如圖3所示,因此利用最大類間方差法計算得到a、b分量灰度閾值分別為114.5和137.5,繼而利用閾值分割將樣本圖像轉換為二值圖,將得到的a、b分量二值圖進行異或運算,接著利用6像素×6像素的方形結構元素對異或后的圖像進行先開后閉的圖像增強運算,從而實現(xiàn)葉片分割,如圖2b所示。
表1 不同嚴重程度樣本分布Tab.1 Sample distribution of different severities
圖1 不同嚴重程度小麥葉片白粉病圖像Fig.1 Leaves images of wheat powdery mildew with different severities
在得到葉片分割圖像后,分別提取葉片圖像的R、G、B分量圖,利用超紅特征值2R-G-B[21]得到R、G、B分量運算后的超紅特征圖,接著利用最大類間方差法計算超紅特征圖的閾值為27.11,利用該閾值對圖像進行分割并利用3像素×3像素的方形結構元素對圖像進行開運算,將病斑從葉片中分割出來,分割后的病斑圖像如圖2c所示。
圖2 小麥葉片白粉病病斑分割圖Fig.2 Leaves images of wheat powdery mildew spot segmentation map
圖3 a、b分量灰度直方圖Fig.3 Gray histograms of a and b components
在模式識別領域,大量學者通過實驗研究證明,利用不同的特征對目標進行描述,往往能夠互補從而提高分類結果。顏色特征是小麥葉部病害的一個非常重要的外觀特征,也是進行病害診斷時的一個重要依據,顏色直方圖是許多植物病害識別系統(tǒng)中被廣泛采用的顏色特征,其中HSV空間更符合人眼的主觀判斷,是直方圖最常用的顏色空間,它的3個分量分別代表色彩(Hue,H)、飽和度(Saturation,S)和亮度(Value,V);紋理是能夠反映區(qū)域內像素灰度級空間的屬性,而局部二值模式(Local binary pattern, LBP)常用來描述圖像局部紋理特征,具有灰度不變性和旋轉不變性等顯著優(yōu)點。
本文利用HSV顏色直方圖和LBP統(tǒng)計直方圖,針對小麥葉片可能存在彎曲、傾斜、缺損等問題,使用滑窗法來提取病害葉片的MWM局部細節(jié)特征。具體地,如圖4所示,對于每一幅樣本圖像(尺寸為880像素×120像素)采用10像素×10像素的子窗口,步長為5個像素掃描整幅圖像,在每個子窗口中,將HSV顏色空間量化為512個顏色小區(qū)間,每個顏色小區(qū)間的直方圖代表著其在子窗口中出現(xiàn)的概率,同樣地,每個子窗口也提取它的LBP統(tǒng)計直方圖特征,對每個子窗口中的某個像素,將相鄰的8個像素的灰度值與其進行比較,若周圍像素灰度大于中心像素灰度,則該像素點的位置被標記為1,否則為0。這樣,3×3鄰域內的8個點經比較可產生8位二進制數,將8位二進制數轉換為十進制作為該像素點的LBP值,然后計算每個子窗口的直方圖,即每個數字出現(xiàn)的頻率;再在同一水平高度的子窗口中,取HSV和LBP統(tǒng)計直方圖最大的值組成一個新的子窗口,這樣,最后得到的特征向量是同一水平高度上統(tǒng)計直方圖特征最大化的特征向量。
圖4 MWM特征提取過程Fig.4 Process of MWM feature extraction
考慮到多尺度信息,將原圖分別縮小1倍和2倍,建立三尺度圖像金字塔,同樣運用以上方法提取其MWM特征,將縮放后提取的特征組合在一起,構成一個新的特征向量X=(x1,x2,…,xn)T來描述小麥的葉部白粉病。此外,為了消除不同特征向量和向量單位的影響,對數據特征向量X作歸一化處理,歸一化后的特征向量記為=(1,2,…,n)T,其中
(1)
基于圖像處理的農作物病蟲害識別方法中對病害圖像特征進行距離度量至關重要,然而圖像特征受視角、光照等因素的影響不同,常用的歐氏距離、曼哈頓距離等標準的距離度量方法平等地對待每一種特征,而不會剔除那些獨立使用時效果很差的特征。因此,本文引入橢圓型度量理論,尋找一種能夠反映樣本空間結構信息或語義信息的分式線性變換,從而使得橢圓型度量具有更好的區(qū)分性。
給定一個可逆對稱矩陣Ω∈Rn×n,誘導出x、y的雙線性形式為
ω(x,y)=xTΩy(x、y∈Rn)
(2)
式中x、y——樣本特征向量
ω——x、y關于Ω的雙線性函數
下面統(tǒng)一采用ω(x,y)的簡化形式ωxy來表示。當Ω是正定,ωxy可誘導出橢圓型度量幾何,令En={x∈Rn:ωxx>0},定義dE:En×En→R+,橢圓型度量計算公式為
(3)
式中dE(x,y)——樣本x、y的橢圓型度量
i——虛數單位
ωxx——x、x關于Ω的雙線性函數
ωyy——y、y關于Ω的雙線性函數
k——曲率半徑
橢圓型度量依賴一個對稱矩陣Ω,定義一個正定對稱矩陣則可確定一個橢圓型度量,因此稱Ω為橢圓型度量矩陣。數據的統(tǒng)計特性在一定程度上反映了樣本數據的幾何結構,因此可根據樣本的類內與類間高斯分布的對數似然比定義橢圓型度量矩陣。
對于特征向量Xi、Xj,它們的樣本差異Δ=Xi-Xj,根據二次判別分析法[22],用高斯概率模型來擬合小麥白粉病不同嚴重度以及相同嚴重度樣本特征之間的差值分布,同類樣本差異Δ符合變量ξI的高斯分布,異類樣本差異Δ符合變量ξE的高斯分布,即
(4)
(5)
式中P——概率
ξI——同類樣本差異擬合變量
ξE——異類樣本差異擬合變量
ΣI、ΣE——ξI、ξE差值分布的協(xié)方差矩陣
將其進行對數似然比可得
(6)
將其簡化為
(7)
由此定義橢圓型度量矩陣Ω為
(8)
經1.3節(jié)病害的特征提取,得到的特征維數較高,其中含有與病害識別無關的信息和相關性非常高的冗余信息,而這些信息會影響到分類識別的效果。傳統(tǒng)的方法通常先采用主成分分析法(PCA)對高維數據降維,然后在PCA子空間中進行距離度量學習。但是,PCA在進行降維時并未考慮特征間的分類信息,由此可能會增加分類的難度。為了保持最大化的分類信息,在降維的同時學習橢圓型度量矩陣,充分考慮到維數降低對度量學習分類結果的影響。
對初始特征xi、xj∈Rd,通過降維矩陣W∈Rd×r(r (9) 其中 為了將樣本分開,使得類內方差小,類間方差大,通過增大方差的距離來增加區(qū)分度,對于矩陣W的列向量w,它的方差為σI(w)=wTΣIw,因此可以定義廣義瑞利熵來最大化方差之間的比值,為 (10) 使得J(w)最大化等價于 (11) 基于橢圓型度量學習的小麥葉部病害識別算法步驟如下: (1)對采集來的病害圖像進行預處理并進行病斑分割。 (3)利用二次判別分析,用高斯概率模型來擬合小麥白粉病不同嚴重度以及相同嚴重度樣本特征之間的差值分布,分別計算協(xié)方差矩陣ΣI、ΣE,通過求解式(11)得到降維矩陣W,相應地由式(9)得到橢圓型度量矩陣Ω(W)。 (4)最后利用特征子空間橢圓型度量dE(x,y)計算測試集和訓練集之間的距離,取每個測試樣本距離前5個樣本的平均距離作為最后的判斷依據。 算法流程圖如圖5所示。 圖5 算法流程圖Fig.5 Flow chart of algorithm 實驗在Matlab 2016b上進行,為了驗證基于橢圓型度量學習的小麥葉部病害識別算法的有效性,對提取的MWM特征和分類器分別進行對比實驗。 方向梯度直方圖(Histogram of oriented gradient, HOG)特征對圖像幾何和光學形變具有良好的不變性,越來越多的研究者將HOG特征用于農作物病蟲害識別上并取得了較好的結果[23-24]??紤]到HOG特征提取方法是在灰度圖像上進行的,沒有充分利用圖像的顏色信息,因此文獻[23]結合HOG特征和HSV顏色特征進行植物病蟲害的識別;另外,顏色紋理形狀特征(Color texture shape features)也是農作物病蟲害識別領域常用的圖像特征,這里的顏色紋理形狀特征特指文獻[17,21]中提到的特征描述方法:RGB、HSI和YCbCr顏色空間的顏色成分R、G、B、H、S、I、Y、Cb、Cr的灰度均值作為顏色特征,利用灰度共生矩陣法分別計算病斑區(qū)域的對比度、相關性、能量、慣性矩和熵的均值和方差作為紋理特征,計算病斑區(qū)域的圓形度、偏心率、形狀復雜性和形狀參數作為形狀特征。 為了驗證1.3節(jié)所述MWM特征提取方法的有效性,對病斑圖像分別提取MWM特征、HSV顏色特征結合HOG特征、HSV特征、LBP特征、HOG特征以及顏色紋理形狀特征[17,21],都采用本文橢圓型度量學習對特征進行分類。實驗結果利用經典評價指標累積匹配曲線(Cumulative match characteristic,CMC)來表示,CMC曲線表示測試集中所選測試圖與目標圖第n次成功匹配的概率,實驗結果如圖6所示。 圖6 累積匹配曲線Fig.6 Cumulative match characteristic (CMC) curves 在均使用橢圓型度量學習這一分類器的基礎上,可以看出:單一特征(HSV特征、HOG特征和LBP特征)在不同匹配次數上識別正確率各有高低,其中LBP特征在匹配次數為1時識別率雖低于HSV特征與HOG特征,但在其他次數上LBP特征識別率均領先,可以估計當測試樣本較多時,LBP特征將具有更好的魯棒性。融合特征往往比單一的特征描述取得更高的識別正確率,從圖6中可以看出,HSV+HOG特征要比單一的HSV、HOG特征識別正確率要高,而在1.3節(jié)中提到的MWM特征提取方法(即滑窗最大值法提取HSV特征和LBP特征)也比單一的HSV、LBP特征識別正確率要高。MWM特征提取方法比起HSV+HOG特征、顏色紋理形狀特征取得了更好的分類識別正確率。 因此,本文提出的MWM特征提取方法選取了顏色信息豐富的HSV特征和魯棒性更好的LBP特征作為融合特征來互補共同描述病斑特征,同時提取特征的過程中,最大化了同一水平高度上每個子窗口特征統(tǒng)計直方圖的值,在損失少量特征信息的情況下保留了更好的特征信息,有效地去除了特征冗余,有效解決了小麥葉片可能存在彎曲、傾斜、缺損等問題,證明了MWM特征提取方法的有效性。 采用同樣的訓練樣本和測試樣本,將提取的MWM特征分別送入SVM分類器、BP神經網絡分類器以及橢圓型度量學習分類器進行分類識別,結果如圖7~9所示,圖中標簽1~3分別對應白粉病輕、中、重。對SVM分類器進行交叉驗證多次尋優(yōu),選擇出最優(yōu)的c、g參數,最終的小麥白粉病輕、中、重3種嚴重度分類正確率為88.33%。使用BP神經網絡時網絡參數經過多次試驗,選擇出最優(yōu)參數,由于神經網絡每次測試結果均存在細微差別,這里使用了多次測試的平均結果,平均識別正確率為90%;采用橢圓型度量學習分類器時識別正確率達到100%。 圖7 SVM分類器識別結果Fig.7 SVM classifier 圖8 BP神經網絡分類器識別結果Fig.8 BP neural network classifier 通過控制變量法,比較了SVM、BP神經網絡、橢圓型度量學習分類器的分類性能,橢圓型度量學習分類器取得了更好的識別效果。這是因為比起傳統(tǒng)的SVM、BP神經網絡,橢圓型度量能夠反映特征空間結構信息或語義信息的分式線性變換,對特征具有更好的區(qū)分性,能夠更好地對特征潛在關系進行建模;在對特征降維的同時考慮了對橢圓型度量學習的影響,因此橢圓型度量學習分類器能達到更高的識別正確率。 圖9 橢圓型度量學習分類器識別結果Fig.9 Elliptical metric learning classifier 基于橢圓型度量學習的小麥葉部病害識別算法,提出了一種MWM特征表示方法,同時提出了一種將降維和度量學習同時進行的橢圓型度量學習方法,對小麥白粉病嚴重度進行分類。通過對不同特征、不同分類器進行對比實驗,驗證了該方法的有效性,可以滿足智能識別小麥白粉病嚴重度的需求,同時該算法對于農作物病害嚴重度的識別推廣具有較好的借鑒意義。3 算法步驟
4 實驗與分析
4.1 不同特征對比實驗
4.2 不同分類器對比實驗
5 結束語