朱景?!±钛?/p>
摘要:應(yīng)用流形學(xué)習(xí)算法研究玉米葉片病害圖像的識別。首先分別利用PCA、LLE、LE算法對玉米病害灰度圖像和彩色圖像進行降維,以得到高維空間中的低維特征,然后采用K-means算法進行聚類分析。結(jié)果表明:LLE算法作為玉米病害灰度圖像識別的特征提取算法,識別率為76.5%;對玉米病害彩色圖像進行識別,識別率達(dá)到99.5%以上。研究最終提出1種在RGB彩色空間用流形學(xué)習(xí)算法進行玉米葉片病害彩色圖像識別的方法。
關(guān)鍵詞:降維;聚類;玉米葉片病害;識別
中圖分類號: TP391.41 文獻(xiàn)標(biāo)志碼: A 文章編號:1002-1302(2016)07-0350-04
農(nóng)作物病害是影響糧食生產(chǎn)安全的主要因素之一,準(zhǔn)確識別出病害是病害防治的前提。應(yīng)用計算機圖像處理技術(shù)實現(xiàn)玉米病害的識別,可以提高病害識別的準(zhǔn)確性、精度、效率,同時降低勞動強度[1]。曹麗英等將圖像處理技術(shù)與BP神經(jīng)網(wǎng)絡(luò)算法相結(jié)合應(yīng)用于玉米病害的識別和診斷[2]。Montalvo等利用雙閾值法設(shè)計了1個在玉米田地里自動識別植物的專家系統(tǒng)[3]。張善文等利用局部判別映射(local discriminant projects,LDP)算法將高維空間的一維向量映射到低維子空間,實現(xiàn)對玉米病害葉片圖像的識別[4]。目前圖像識別主要的研究方法分為2大類:一類是直接提取葉片圖像的顏色、形狀或紋理等特征,實現(xiàn)分類識別;另一類是利用流形學(xué)習(xí)算法等對葉片圖像進行維數(shù)約簡,實現(xiàn)分類識別。這些方法基本都能達(dá)到較好的識別率。但是,這些圖像識別方法大多基于灰度圖像或?qū)⒉噬珗D像變換到HSI等彩色空間進行識別,由于灰度變換會丟掉大量的顏色信息,而且由RGB彩色空間轉(zhuǎn)換到其他彩色空間時會使變換后的分量值不再均勻,RGB分量值的細(xì)微變化可能導(dǎo)致其他彩色空間分量值的重大變化,所以這些方法仍存在一些問題。為了克服這些問題,本研究提出1種在RGB彩色空間將流形學(xué)習(xí)算法直接用于玉米葉片病害彩色圖像維數(shù)約簡的方法,解決RGB彩色空間三分量間相關(guān)性的問題,并與灰度圖像的識別結(jié)果進行對比分析,以進一步提高葉片病害識別的精度。
1 算法介紹
玉米葉片病害彩色圖像包括紋理、顏色和形狀等特征,基于葉片圖像的作物病害識別方法一直是主要的研究方向[5]。其中,對葉片圖像進行維數(shù)約簡和特征提取是最重要的環(huán)節(jié)。但是,彩色圖像顯示和存儲一般都是在RGB色彩空間表示,R、G、B 3個分量之間常常有很高的相關(guān)性,直接利用這些分量不能得到所需的效果[6]。因此,大多數(shù)特征提取方法都是基于灰度圖像或是變換到其他彩色空間進行處理。流形學(xué)習(xí)算法是一類非常有效的降維方法,本研究以期克服彩色圖像3個分量間相關(guān)性的缺陷,利用流形學(xué)習(xí)算法分別對玉米葉片灰度圖像和彩色圖像進行降維。
流形學(xué)習(xí)算法是近年來發(fā)展較為迅速、有效的降維算法,已經(jīng)成功應(yīng)用于人臉識別和醫(yī)學(xué)數(shù)據(jù)處理等方面。Aljabar等基于流形學(xué)習(xí)算法,提出1種利用體形和外貌來分析新生兒大腦發(fā)育情況的方法[7]。Hadid等基于流形學(xué)習(xí)算法,設(shè)計出從視頻序列中識別出人臉并分類的系統(tǒng)[8]。閻慶等針對局部線性嵌入(locally linear embedding,LLE)算法不適用于分類問題的特點,提出1種基于Fisher變換的改進LLE算法,應(yīng)用于植物葉片圖像識別[9]。Czaja等提出1種新的流形學(xué)習(xí)算法來分析生物醫(yī)學(xué)數(shù)據(jù)和新的多光譜視網(wǎng)膜圖像[10]。Chahooki等利用流形學(xué)習(xí)算法提出1種對二值圖像進行目標(biāo)識別和圖形索引的方法,以提高識別率[11]。
常見的流形學(xué)習(xí)算法可分為線性、非線性兩大類。主成分分析(principal component analysis,PCA)算法是最常用的1種線性降維算法。PCA算法是用線性變換的方法找到1個新的低維投影空間來減少信息的冗余。非線性降維算法中比較有代表性的有LLE算法和拉普拉斯特征映射(Laplacian eigenmap,LE)算法。LLE是1種利用流形的局部線性將高維度空間流形展開到低維度空間的算法[12]。LLE認(rèn)為數(shù)據(jù)是局部線性的,任何1點可由其近鄰點的線性組合來表示[13]。LE采用圖片的拉普拉斯算子描述流形的局部特征,求解能夠保持?jǐn)?shù)據(jù)之間遠(yuǎn)近關(guān)系的低維嵌入[14]。本研究主要采用PCA、LLE、LE算法這3種算法來對玉米葉片病害圖像進行特征提取,以期實現(xiàn)對玉米病害的識別。
1.1 流形學(xué)習(xí)算法
定義1(同胚):1個連續(xù)函數(shù)的逆還是連續(xù)函數(shù)則稱為同胚。
定義2(流形):當(dāng)M滿足以下條件時稱為n維流形。
(1)M為Hausdorff空間。即對于空間M中任意2個點X、Y,存在U、V為點X、Y的鄰域,且滿足UIV=Φ。
(2)對于M中任意1點P,都有1個開鄰域UM,使U和n維歐式空間Rn中的開子集同胚。
定義3(坐標(biāo)圖冊):1個d 維流形M是1個與空間Rd局部同胚的集合,即對1個x∈M,都存在1個開鄰域Ux,以及1個同胚映射f:Ux→Rd。則映射f稱為坐標(biāo)圖冊。
定義4(流形學(xué)習(xí)):1個高維數(shù)據(jù)集D={x1,x2,…,xn}∈RN,假設(shè)它在由坐標(biāo)圖h:M→Rd所確定的d維流形M上,流形學(xué)習(xí)就是尋找Y={y1,y2,…,yn}∈Rd,使yi=h(xi)(i=1,2,…,n)。
1.2 PCA算法
PCA算法是在假設(shè)樣本數(shù)據(jù)之間關(guān)系是線性的前提下運用的。它的主要目標(biāo)是通過線性變換尋找1組最優(yōu)的單位正交向量基,并用它們的線性組合來重構(gòu)原樣本,以使重建后的樣本和原樣本的誤差最小[15]。PCA算法的基本步驟如下。
(1)對輸入矩陣X={x1,x2,…xn∈Rn}進行中心化,即計算X=XI=1neeT。
(2)對XXT進行特征值分解,即求解XXT=UΛUT。其中U是正交矩陣,Λ是對角矩陣且滿足λ1≥λ2≥…≥λm(λ為特征值)。
(3)計算Y=UdTX,其中Ud是由U的前d列組成的矩陣。
(4)返回Y。
1.3 LLE算法
LLE算法認(rèn)為數(shù)據(jù)流形是局部線性的,算法強調(diào)在數(shù)據(jù)集的結(jié)構(gòu)不滿足全局線性結(jié)構(gòu)時,觀測空間與內(nèi)在低維空間之間在局部意義下的序可以用線性空間來近似[16]。LLE算法是基于局部保序的思想。LLE算法的基本步驟如下。
(1)將數(shù)據(jù)集X={x1,x2,…,xn∈Rn}中每個點xi的k個近鄰點xj(i=1,…,n;j=1,…,k)構(gòu)成點xi的鄰域:Xi={xi1,xi2,…,xin}。
(2)針對每個數(shù)據(jù)點xi,計算重建系數(shù):Wi=∑kCjk-1∑lmClm-1,使|xi=∑jWijXij|最小,并且∑jWij=1。
(3)求解(I-W)T(I-W)的非零特征值和特征向量,第2至(d+1)個最小特征值所對應(yīng)的特征向量按列排列所構(gòu)成的矩陣則為輸出矩陣Y。
(4)返回Y。
1.4 LE算法
LE算法的基本思想:在高維空間中距離很近的點投影到低維空間中的像也應(yīng)該離得很近,保持高維空間與變換后的低維空間的拓?fù)潢P(guān)系不變性[17]。LE算法的基本步驟如下。
(1)將數(shù)據(jù)集X={x1,x2,…,xn∈Rn}中每個點xi的k個近鄰點xj(i=1,…,n;j=1,…,k)構(gòu)成點xi的鄰域:Xi={xi1,xi2,…,xin}。
(2)為各條邊賦權(quán)值。若任意點xi和xj之間有邊相連,則其權(quán)值為:Wij=exp(-|xi-xj|2/t)或Wij=1;否則Wij=0。其中t為參數(shù)。
(3)計算拉普拉斯算子L=D-W的特征值、特征向量,其中:D為對角矩陣,且Dij=∑jwji。第2至(d+1)個最小特征值所對應(yīng)的特征向量按列排列構(gòu)成的矩陣則為輸出矩陣Y。
(4)返回Y。
2 玉米葉片病害圖像處理
本試驗采用從黑龍江八一農(nóng)墾大學(xué)試驗田中實地采集到的玉米葉片病害和無病害的真色彩圖像,用Photoshop軟件把病害圖像分割成只含有葉片背景、病斑的圖像,圖像大小為131×86像素,將無病害圖像分割成只含有綠色葉片的圖像,圖像大小也為131×86像素,詳見圖1。選取100幅病害圖像和100幅無病害圖像進行試驗。
采集圖片的器材是SONY DSC-W350D數(shù)碼相機。在Windows XP環(huán)境下,用CPU為E4600、主頻為2.4 G、內(nèi)存 2 GB 的計算機對玉米圖像進行處理,處理的程序用Matlab 71語言編寫。
3 玉米病害圖像的特征提取
目前以高斯模型算法為代表的圖像處理技術(shù),只是提取玉米病斑圖像的顏色特征,根據(jù)得到的單一顏色特征與特征模板進行匹配,確定病斑的類型,從而完成對玉米病斑的識別[18]。但是,不同病害圖像的顏色、紋理和形狀特征各不相同,單純采用某一種特征進行病害識別,會丟失信息,很難提高識別率[19]。本研究主要采用PCA、LLE、LE算法這3種算法分別對玉米葉片病害灰度圖像和彩色圖像進行特征提取,再運用K-means算法[20]進行聚類,實現(xiàn)對玉米病害的識別,從而綜合考慮病斑的不同特征,提高識別率。
3.1 灰度圖像特征提取的聚類試驗
將處理后的100幅病害圖像、100幅無病害圖像運用rgb2gray函數(shù)轉(zhuǎn)換成灰度圖,再用PCA、LLE、LE算法對圖片進行降維來提取特征,分別降到2、3、4、…、50維并保存(降到幾維即保留幾個特征)。其中降為2、3維后的效果見圖2,圖中黑點表示無病害圖像、灰點表示病害圖像。
將圖2中的6幅圖進行對比可以看出:2、3維的LLE算
法的降維結(jié)果要優(yōu)于PCA、LE算法,較好地區(qū)分開了紅點、綠點,交集部分較少。
為了進一步研究哪種降維算法更適用于玉米葉片病斑圖像的識別,降到幾維(保留幾個特征)效果最好,本研究采用K-means算法對降維后的數(shù)據(jù)進行聚類(聚成2類)分析,得到正確識別率(簡稱正識率)見表1。試驗表明:誤識率=1-正識率,漏識率=0。
從表1中3種降維算法的正識率可以清晰地看出,LLE算法降維結(jié)果的聚類正識率要遠(yuǎn)遠(yuǎn)高于PCA、LE算法,并且可以穩(wěn)定在76.5%。因此,對于灰度圖像,選取LLE算法作為玉米病害圖像識別的特征提取算法是可行的。
3.2 彩色圖像特征提取的聚類試驗
(1)方法1。流形學(xué)習(xí)算法可以直接應(yīng)用于圖像的每個顏色分量上,以分別提取特征,再進行聚類分析。試驗采用PCA、LLE、LE算法對每個顏色分量進行降維,依次降到2、3、4,…,50維;運用K-means算法對降維后的數(shù)據(jù)進行聚類(聚成2類)并標(biāo)記。對聚類結(jié)果進行分析,對于每幅圖像,當(dāng)R、G、B 3個分量中有2個及2個以上分量被標(biāo)記為有病,則判定該幅圖像為病害圖像;然后,再將判定結(jié)果與原圖像進行對比,驗證其是否被正確識別,得到的正識率見表2。
從表2中的正識率可以看出,LLE算法盡管在降為9維及以后,B顏色分量上聚類試驗出錯,得不到正識率,但是在2至8維之間其降維結(jié)果的聚類正識率要遠(yuǎn)遠(yuǎn)高于PCA、LE算法,并且穩(wěn)定在77.0%~77.5%。但是,此方法與灰度圖像試驗方法相比并沒有提高識別率。
(2)方法2。運用流形學(xué)習(xí)算法將圖像中的每1點由3維彩色空間映射到1維灰度空間,然后再進行特征提取,這樣既可以去除3個分量之間的相關(guān)性,又可以很好地保持彩色圖像豐富的特征信息[21]。1幅彩色圖像是1個131×86×3的矩陣,試驗依次提取每個像素點的3個分量使其轉(zhuǎn)化為 33 798×1的矩陣再進行堆疊,然后采用PCA、LLE、LE算法、K-means算法進行降維和聚類分析,得到降為2、3維后的效果見圖3,正識率見表3。
從圖3可以看出,3種算法都良好地區(qū)分開了黑點、灰點,與圖2相比均有所改善,識別出了病害圖像、無病害圖像。
從表3中的正識率可以清晰地看出,盡管LLE算法在降為20維及以后,聚類試驗出錯,得不到正識率,但整體來看,3種算法降維結(jié)果的聚類正識率都非常好,尤其是PCA、LE算法可以100%識別出病害圖像、無病害圖像。該方法的識別率明顯高于灰度圖像的試驗方法,因此將這種方法作為玉米病害彩色圖像的識別方法是可行的。
4 結(jié)論
本研究針對玉米葉片的病斑及其相關(guān)特征可以直接反映病害的種類及程度的特點,通過采用PCA、LLE、LE算法3種降維算法分別對玉米葉片病害的灰度圖像、彩色圖像進行降維,并對降維結(jié)果進行聚類分析,由于灰度圖像只保留了病斑的部分顏色特征,而彩色圖像則完全保留了病斑的全部特征,因此針對彩色圖像的識別率遠(yuǎn)遠(yuǎn)高于針對灰度圖像的識別率。通過試驗表明,選取LLE算法作為玉米病害灰度圖像識別的特征提取算法,正確識別率為76.5%;對于玉米病害彩色圖像,將3維矩陣轉(zhuǎn)化為1維矩陣再進行處理的方法,PCA、LLE、LE算法均有較高的正確識別率,識別率達(dá)到995%以上。
參考文獻(xiàn):
[1]溫長吉,王生生,于合龍,等. 基于改進蜂群算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的玉米病害圖像分割[J]. 農(nóng)業(yè)工程學(xué)報,2013,29(13):142-149.
[2]曹麗英,張曉賢,傘曉輝,等. 基于圖像處理技術(shù)和BP神經(jīng)網(wǎng)絡(luò)算法的玉米病害診斷方法的研究[J]. 計算機科學(xué),2012,39(10):300-302.
[3]Montalvo M,Guerrero J M,Romeo J,et al. Automatic expert system for weeds/crops identification in images from maize fields[J]. Expert Systems With Applications,2013,40(1):75-82.
[4]張善文,張傳雷. 基于局部判別映射算法的玉米病害識別方法[J]. 農(nóng)業(yè)工程學(xué)報,2014,30(11):167-172.
[5]朱景福,李 雪. 聚類算法在玉米葉片病斑降維識別中的應(yīng)用[J]. 江蘇農(nóng)業(yè)科學(xué),2015,43(1):405-406.
[6]牛海晶,尚可可,劉 迎,等. 皮膚紅斑彩色圖像分割的降維方法研究[J]. 計算機工程與應(yīng)用,2006,42(13):219-221.
[7]Aljabar P,Wolz R,Srinivasan L,et al. A combined manifold learning analysis of shape and appearance to characterize neonatal brain development[J]. IEEE Transactions on Medical Imaging,2011,30(12):2072-2086.
[8]Hadid A,Pietikainen M. Demographic classification from face videos using manifold learning[J]. Neurocomputing,2013,100(2):197-205.
[9]閻 慶,梁 棟,張晶晶. 基于Fisher變換的植物葉片圖像識別監(jiān)督LLE算法[J]. 農(nóng)業(yè)機械學(xué)報,2012,43(9):179-183.
[10]Czaja W,Ehler M. Schroedinger eigenmaps for the analysis of biomedical data[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(5):1274-1280.
[11]Chahooki M A,Charkari N M. Learning the shape manifold to improve object recognition[J]. Machine Vision and Applications,2013,24(1):33-46.
[12]陳宏達(dá),普晗嘩,王 斌,等. 基于圖像歐氏距離的高光譜圖像流形降維算法[J]. 紅外與毫米波學(xué)報,2013,32(5):450-455.
[13]Roweis S T,Saul L K. Nonlinear dimensionality reduction by locally linear embedding[J]. Science,2000,290(550):2323-2326.
[14]侯臣平,吳 翊,易東云. 新的流形學(xué)習(xí)方法統(tǒng)一框架及改進的拉普拉斯特征映射方法[J]. 計算機研究與發(fā)展,2009,46(4):676-682.
[15]普晗曄,王 斌,張立明. 基于流形學(xué)習(xí)的新高光譜圖像降維算法[J]. 紅外與激光工程,2014,43(1):232-237.
[16]許熳鋒. 無監(jiān)督流行學(xué)習(xí)算法的若干探討[D]. 杭州:浙江大學(xué),2010.
[17]黃啟宏,劉 釗. 流形學(xué)習(xí)中非線性維數(shù)約簡方法概述[J]. 計算機應(yīng)用研究,2007,24(11):19-25.
[18]何 倩,鄭向陽. 模糊識別技術(shù)在玉米病斑識別中的應(yīng)用研究[J]. 計算機仿真,2012,29(5):251-253,286.
[19]王守志,何東健,李 文,等. 基于核K-均值聚類算法的植物葉部病害識別[J]. 農(nóng)業(yè)機械學(xué)報,2009,40(3):152-155.
[20]賁志偉,趙勛杰. 基于改進的K均值聚類算法提取彩色圖像有意義區(qū)域[J]. 計算機應(yīng)用與軟件,2010,27(9):11-13.
[21]肖 鋒,郭麗娜. 基于降維技術(shù)及空間矩的彩色圖像亞像素邊緣檢測[J]. 計算機應(yīng)用與軟件,2014,31(6):204-207.