摘要:為實(shí)現(xiàn)計(jì)算機(jī)診斷煙草病害,提出了依據(jù)病害圖像的特征,運(yùn)用實(shí)數(shù)編碼遺傳算法優(yōu)化特征和支持向量機(jī)識(shí)別病害的方法來診斷病害。通過對(duì)病害圖像增強(qiáng)處理、彩色病斑分割、病斑特征提取,構(gòu)建了實(shí)數(shù)編碼遺傳算法選擇有效特征與支持向量機(jī)識(shí)別病害的模型。該模型通過實(shí)數(shù)編碼遺傳算法將權(quán)重較高的前n個(gè)特征值xi乘以對(duì)應(yīng)權(quán)重wi作為支持向量機(jī)的輸入向量,將分類精度作為遺傳算法的適應(yīng)度,對(duì)個(gè)體進(jìn)行了評(píng)估,實(shí)現(xiàn)了在獲得有效特征的同時(shí)提高支持向量機(jī)的識(shí)別精度。試驗(yàn)結(jié)果表明,經(jīng)過訓(xùn)練的模型具有較好的煙草病害識(shí)別能力。
關(guān)鍵詞:病斑特征;煙草病害;支持向量機(jī);CIE L*a*b*模型;實(shí)數(shù)編碼遺傳算法
中圖分類號(hào): S126;TP391.41文獻(xiàn)標(biāo)志碼: A文章編號(hào):1002-1302(2015)09-0435-04
隨著計(jì)算機(jī)技術(shù)的發(fā)展和農(nóng)業(yè)信息化的迫切需求,國內(nèi)外學(xué)者嘗試?yán)糜?jì)算機(jī)圖像處理技術(shù)和模式識(shí)別技術(shù)對(duì)作物病害進(jìn)行自動(dòng)定量的識(shí)別,已在水稻、小麥、黃瓜、蔬菜[1-5]等的病害識(shí)別上取得了一定的成績。常用的模式識(shí)別工具有貝葉斯決策、神經(jīng)網(wǎng)絡(luò)、模糊集法等。常用模式識(shí)別工具是以無限多樣本訓(xùn)練為前提的,但在實(shí)際診斷中對(duì)于某一類病害,通常不具有大量的病害樣本。支持向量機(jī)(SVM)[6]是一種新的模式識(shí)別方法,它在處理非線性、小樣本等問題上具有特定的優(yōu)勢(shì),在生物信息、醫(yī)學(xué)等領(lǐng)域已得到了成功應(yīng)用。已有學(xué)者開始利用支持向量機(jī)對(duì)葡萄、黃瓜、小麥等的病害進(jìn)行識(shí)別[2-3],取得了一定成績。因作物種類繁多,同一類作物也會(huì)有多種病害發(fā)生,且病害特征呈現(xiàn)多樣化、復(fù)雜化,所以至今還沒有一種通用的病害識(shí)別方法,需針對(duì)不同的作物病害分別進(jìn)行研究。在煙草生長期內(nèi)有多種病害發(fā)生,每年造成的損失很大[7],病害防治是確保煙草產(chǎn)量和質(zhì)量的關(guān)鍵技術(shù)之一。目前,煙草病害的識(shí)別主要通過人為判斷,或通過書本、互聯(lián)網(wǎng)、數(shù)據(jù)庫等提供的煙草病害圖片比對(duì)診斷,這對(duì)于非專業(yè)人員,往往會(huì)引起人為的誤判,從而難以對(duì)癥下藥,造成煙葉質(zhì)量下降。
本研究提出依據(jù)病害圖像的病斑特征,構(gòu)建實(shí)數(shù)編碼遺傳算法獲取有效特征和支持向量機(jī)識(shí)別病害的模型以診斷煙草病害。以赤星病、野火病等4種常見又容易混淆的煙草病害圖像診斷為例,通過分割彩色病斑、提取病斑特征,將提取的特征輸入實(shí)數(shù)編碼遺傳算法優(yōu)化特征和支持向量機(jī)識(shí)別病害的模型,特征通過模型,獲得對(duì)應(yīng)的權(quán)重,將前n個(gè)權(quán)重較高的特征向量值xi乘以對(duì)應(yīng)的權(quán)重wi,即xi=wi·xi作為支持向量機(jī)的輸入向量,支持向量機(jī)的分類精度作為遺傳算法的適應(yīng)度對(duì)個(gè)體進(jìn)行評(píng)估,以在去除冗余特征的同時(shí)提高支持向量機(jī)的識(shí)別精度。試驗(yàn)表明,實(shí)數(shù)編碼遺傳算法選擇病害特征比采用二進(jìn)制編碼及雙編碼具有更好的識(shí)別率和優(yōu)勢(shì),構(gòu)建的模型能很好地識(shí)別煙草病害,可為病害的科學(xué)防治和危害程度評(píng)價(jià)提供依據(jù)。
1材料和方法
1.1病害圖像采集與硬件參數(shù)
本研究中所采集的圖像來源于云南德宏潞西,在田間自然光照下,用Nikon D80數(shù)碼相機(jī)(焦距18~20 mm,最大光圈f/3.5~f/5.6),采集4種煙草病害(野火病、炭疽病、赤星病、蛙眼?。?00幅,以“jpg”格式存儲(chǔ)在電腦中。
利用Intel(R) Pentium(R)CPU G3220@3.0GHZ處理器,內(nèi)存4 G,硬盤500 G,在Windows 2007系統(tǒng)環(huán)境下用Matlab2009a軟件編程實(shí)現(xiàn)圖像增強(qiáng)、病斑分割、特征提取、特征篩選、病害識(shí)別等操作。
1.2研究方法
1.2.1圖像預(yù)處理和病斑分割(1)圖像預(yù)處理。為減少計(jì)算量和外界帶來的干擾,在不損害病斑完整性的前提下,根據(jù)病斑所在的位置將圖像由原來的3 872×2 592像素統(tǒng)一裁剪為800×600像素。由于圖像是在田間自然條件下采集,難免會(huì)受采集設(shè)備、環(huán)境等因素影響,往往使采集到的圖像含有噪聲,若直接進(jìn)行圖像分割和特征提取,會(huì)給識(shí)別造成誤差。為此本研究首先利用3×3矩形窗口對(duì)原圖像進(jìn)行中值濾波[8],以削弱或去除噪聲,使病斑輪廓與細(xì)節(jié)更加清晰,利于后期病斑的分割和處理。
(2)顏色空間選擇。在眾多顏色模型中,因CIE L*a*b*模型符合人的視覺特征[9],與光線及設(shè)備無關(guān),并且處理速度與RGB模型同樣快,比CMYK模型快,還是一種均勻的彩色空間,適合于彩色圖像的編輯和分析,所以本研究采用了CIE L*a*b*模型。從RGB空間到L*a*b*空間的轉(zhuǎn)化,采用D65白點(diǎn),其中Xn=0.950 456,Yn=1,Zn=1.088 754。
(3)彩色病斑分割。煙草病害圖像由病斑區(qū)域和正常區(qū)域組成,而病斑區(qū)域與正常區(qū)域之間有明顯的突變,即邊緣,所以本研究的病斑分割,采用基于支持向量機(jī)與多特征選擇的彩色病斑邊緣檢測(cè)方法分割[10]。通過在CIE L*a*b*顏色空間,計(jì)算圖像亮度和色度通道的方差、均值差、最大梯度,以及位置像素對(duì)比度及均值色差作為特征向量,實(shí)現(xiàn)支持向量機(jī)對(duì)病斑邊緣的識(shí)別,對(duì)識(shí)別出的病斑邊緣,統(tǒng)計(jì)近似圓形且半徑大于一定值的二值化區(qū)域,將區(qū)域內(nèi)的所有像素賦值為“1”,再與原圖進(jìn)行“與”運(yùn)算,從而獲得病害圖像的彩色病斑。這樣分割既可以減少病害圖像處理的信息量,又能描述病斑的形態(tài)特征,是進(jìn)一步識(shí)別病害的基礎(chǔ)。圖1是采用上述方法對(duì)赤星病、蛙眼病和野火病圖像分割的效果圖。
1.2.2病斑區(qū)域特征提?。?)顏色特征提取。顏色是區(qū)分各種不同病害的重要特征,而顏色模型的選擇會(huì)影響到病害識(shí)別效果。由于病害圖像是在自然光照下拍的,為了消除亮度影響,采用顏色矩來描述顏色特征[11],因顏色信息主要集中在低階,所以本研究在CIE L*a*b*顏色空間,提取L、a、b 3個(gè)分量的一階矩σ和二階矩σ2,共6個(gè)特征向量,其公式如下:
病斑數(shù):E。主要用來計(jì)算病害圖片上某種病害的病斑個(gè)數(shù)。endprint
病斑面積與病斑數(shù)比值:R=SE。該參數(shù)是單個(gè)病斑的面積度量,主要用于區(qū)分大病斑和小病斑。
1.3基于實(shí)數(shù)編碼遺傳算法選取病斑特征與支持向量機(jī)識(shí)別病害的模型設(shè)計(jì)
(1)模型介紹。支持向量機(jī)(support vector machine,簡稱SVM)[13-15]是Vapnik等于1995年根據(jù)統(tǒng)計(jì)學(xué)理論中結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則提出的一種模式識(shí)別方法。它在解決小樣本、非線性及高維模式識(shí)別問題中表現(xiàn)出許多特有的優(yōu)勢(shì)。由于徑向基(RBF)核函數(shù)的計(jì)算復(fù)雜度不隨參數(shù)的變化而變化,且在全部參數(shù)空間滿足Mercer條件,是SVM方法中最常用的核函數(shù),因此本研究選擇徑向基核函數(shù),其數(shù)學(xué)表達(dá)式為:K(x,y)=exp(-γ│x-y│2),其中x為輸入特征值,y為特征值x對(duì)應(yīng)的結(jié)果,γ為徑向基核函數(shù)參數(shù)(γ>0)。
遺傳算法(GA)是美國Holland教授于1975年提出的,是一種全局優(yōu)化的隨機(jī)搜索算法,特別適用于處理傳統(tǒng)搜索方法難以解決的復(fù)雜和非線性問題[16-17]。遺傳算法的思想源于生物遺傳學(xué)和適者生存的自然規(guī)律,從一個(gè)隨機(jī)產(chǎn)生的解群體出發(fā),借助選擇、交叉、變異等操作,依據(jù)適應(yīng)度函數(shù)對(duì)個(gè)體的評(píng)價(jià),使每一代中相對(duì)好的解替代前一代相對(duì)差的解,最終逼近全局最優(yōu)解。將GA和SVM結(jié)合的目標(biāo)是在去除冗余特征的同時(shí),提高病害的識(shí)別精度。
(2)操作步驟。①編碼。遺傳特征選擇的目標(biāo)是去除冗余特征,選擇最優(yōu)特征子集,使得分類精度最大化。常用的編碼方式是二進(jìn)制編碼,1表示選中,0表示未選中。本研究為了既得到特征子集,又能得到特征對(duì)應(yīng)的權(quán)重,采用了實(shí)數(shù)編碼方式。②初始群體。設(shè)特征個(gè)數(shù)為m,則實(shí)數(shù)編碼的初始群體M(0)={Ci},(i=1,2,…,N),其中 Ci=wik,k=1,2,…,m。M(0)中的第1個(gè)染色體的每個(gè)基因都等于“1”,表示所有特征的權(quán)重都相同。其余(N-1)個(gè)初始染色體基因隨機(jī)產(chǎn)生[0,1]之間的實(shí)數(shù),表示隨機(jī)生成(N-1)個(gè)特征加權(quán)子集。③選擇適應(yīng)度函數(shù)。適應(yīng)度函數(shù)是針對(duì)需要解決的具體問題而設(shè)定的,目的是提高煙草病害的分類精度,所以采用支持向量機(jī)的分類精度對(duì)個(gè)體適應(yīng)度進(jìn)行評(píng)估。適應(yīng)度函數(shù) F=accuracy,其中accuracy為SVM分類器的分類精度。④遺傳操作。a. 選擇操作。將染色體按適應(yīng)值從大到小順序排列,適應(yīng)值最大的染色體直接進(jìn)入下一代,剩余染色體根據(jù)選擇概率Ps按輪盤賭選擇機(jī)制進(jìn)行選擇。b. 交叉操作。實(shí)數(shù)編碼GA中的交叉操作常采用最大-最小-算術(shù)交叉方法和雙點(diǎn)交叉。雙點(diǎn)交叉操作的具體過程是:首先,將所有的父代個(gè)體進(jìn)行兩兩組合,得到C2N個(gè)個(gè)體對(duì);然后,就每對(duì)組合隨機(jī)產(chǎn)生1個(gè)[0,1]之間的隨機(jī)數(shù) P,如果 P>Pc(Pc為交叉概率),則確定該組合將進(jìn)行交叉操作,否則確定該組合將不進(jìn)行交叉操作;最后,產(chǎn)生2個(gè)隨機(jī)整數(shù) a、d(0 wk=wk+μ(1-(1-tM)β),γ=0 wk+μ(1-(1-tM)β),γ=1。(7) 式中:t為迭代次數(shù),是∈[0,1]間的隨機(jī)數(shù);M 是最大遺傳代數(shù);γ為1或0的隨機(jī)數(shù);β是突變參數(shù)。這種突變方法與遺傳代數(shù)相關(guān),使得在進(jìn)化初期,突變的范圍相對(duì)較大,而隨著進(jìn)化的推進(jìn),突變范圍逐漸減小,對(duì)進(jìn)化起著微調(diào)作用。 ⑤終止條件。終止條件采用最大進(jìn)化代數(shù)或相鄰進(jìn)化代數(shù)最優(yōu)個(gè)體適應(yīng)值相對(duì)誤差小于 0.001 相結(jié)合。分析新個(gè)體是否滿足終止條件,若不滿足返回第③步;若滿足則終止。 ⑥染色體解碼。迭代結(jié)束后,將具有最高適應(yīng)度的個(gè)體作為優(yōu)選結(jié)果,選出n個(gè)權(quán)重較大的項(xiàng)對(duì)應(yīng)的特征為選中的特征,將這些特征挑選出來得到的特征集合就是選擇的最優(yōu)特征子集。 2結(jié)果與分析 2.1試驗(yàn)參數(shù)選定 以煙草生長中常見也最容易混淆的野火病、炭疽病、赤星病、蛙眼病4種主要病害為例。選擇效果較好的子圖300幅,其中以每種病害45幅(共180幅)做分類訓(xùn)練,以每種病害30幅(共120幅)做測(cè)試。根據(jù)上述方法,提取了顏色、紋理、形態(tài)共23個(gè)特征。分類器選用SVM的一對(duì)一投票策略實(shí)現(xiàn)煙草多種病害識(shí)別。共訓(xùn)練k(k-1)/2(k為類別數(shù),取4)個(gè)二值分類器,在分類時(shí)采用了打分策略,分別用訓(xùn)練過程得到的k(k-1)/2個(gè)分類器進(jìn)行測(cè)試,每個(gè)結(jié)果為1分,累計(jì)各類別得分,選擇得分最高的為測(cè)試類別。試驗(yàn)參數(shù)為:(1)采用SVM中徑向基核函數(shù)K(x,y)=exp(-γ│x-y│2)作為核函數(shù),經(jīng)多次試驗(yàn)其參數(shù)C=50、γ=0.125效果較好,輸出采用十進(jìn)制編碼輸出:0代表正常,1代表野火病,2代表炭疽病,3代表赤星病,4代表蛙眼病,共5個(gè)輸出。(2)遺傳算法的染色體長度m=23,群體大小P=20,交叉概率P01=0.9,變異概率P02=0.05,交叉因子γ=0.6,突變參數(shù)β=0.6,最大迭代次數(shù)G=400。(3)在Matlab2009a環(huán)境編程實(shí)現(xiàn)遺傳算法(GA)和SVM算法,其中編寫的SVM函數(shù)有:①M(fèi)ultiSVMtruct=MultiSVMTtrain(TrainData,nSamPerclass,nclass,C,γ),其中TrainData為訓(xùn)練數(shù)據(jù),nSamPerclass記錄每類的樣本數(shù),nclass為類別數(shù);②Class=MultiSVMClassify(TestData,MultiSVMtruct),其中TestData為測(cè)試樣本集,MultiSVMtruct 為多類SVM的訓(xùn)練結(jié)果。
從提取的23個(gè)煙草病斑特征中選取對(duì)病害識(shí)別貢獻(xiàn)高的n個(gè)特征子集。遺傳操作結(jié)束后,用n個(gè)對(duì)應(yīng)特征向量值乘以特征權(quán)重Wi∈[0,1],即Xi=Wi·Xi作為支持向量機(jī)的輸入向量,其特征數(shù)與對(duì)應(yīng)的分類精度如圖2 所示。從圖2看出,當(dāng)特征數(shù)為15時(shí),分類精度最高,其特征項(xiàng)分別為:顏色A={σL,σa,σb,σa2,σb2},紋理B={ mean f1,sqrt f1,sqrt f2,mean f3,mean f4,mean f5},形態(tài)C={S,Ct,St,E,R},對(duì)應(yīng)權(quán)重分別為:0.325、0.531、0.774、0.452、0.631、0.168、0.280、0.564、0.198、0.202、0.147、0.471、0.612、0.432、0.271、0.741。
2.2識(shí)別結(jié)果
表1是幾種算法的對(duì)照。從表1可得出:本研究算法與沒有采用遺傳特征選擇相比,在特征向量只有原來的92%的情況下,精度卻提高了14.5百分點(diǎn);與采用二進(jìn)制編碼遺傳算法優(yōu)化特征相比,其識(shí)別精度高出4百分點(diǎn);與采用雙編碼遺傳算法[18](同時(shí)采用實(shí)數(shù)編碼和二進(jìn)制編碼)優(yōu)化特征相比,識(shí)別精度高出0.70百分點(diǎn);本研究算法獲取的特征數(shù)是16,二進(jìn)制編碼遺傳算法的為18,雙編碼遺傳算法的為17。表1幾種算法的病害識(shí)別精度對(duì)照
遺傳算法方式支持向量數(shù)正確識(shí)別率(%)野火病赤星病蛙眼病炭疽病平均沒有采用遺傳選擇778689828084.25二進(jìn)制編碼遺傳選擇679397949594.75雙編碼遺傳選擇7497100979898.05實(shí)數(shù)編碼遺傳選擇7198100989998.75
由上述得出本研究算法在獲得有效特征的同時(shí)獲取了特征的權(quán)重,并降低了時(shí)間及空間復(fù)雜度。
3討論
以煙草4種常見病害(野火病、赤星病、蛙眼病、炭疽?。┎“邎D像為研究對(duì)象,應(yīng)用實(shí)數(shù)編碼遺傳算法可以去除冗余特征,還能獲得對(duì)識(shí)別病害貢獻(xiàn)多少的權(quán)重,并用支持向量機(jī)對(duì)4種病害進(jìn)行識(shí)別,結(jié)果表明利用基于支持向量機(jī)與多特征選擇的彩色病斑邊緣檢測(cè)方法能有效提取出4種病害的病斑。
在病害特征優(yōu)化和識(shí)別精度方面,用同樣的樣本和模型訓(xùn)練方法,分別用提取的全部特征直接用支持向量機(jī)識(shí)別,其平均識(shí)別精度為84.25%;用二進(jìn)制遺傳算法優(yōu)化特征和支持向量機(jī)識(shí)別病害,優(yōu)化后特征數(shù)減為18個(gè),平均識(shí)別精度為94.75%;用雙編碼遺傳算法優(yōu)化特征和支持向量機(jī)識(shí)別,優(yōu)化后特征數(shù)減為17個(gè),平均識(shí)別精度為98.05%;用本研究的方法,實(shí)數(shù)編碼遺傳算法優(yōu)化特征和支持向量機(jī)識(shí)別病害,優(yōu)化后的特征數(shù)減為15個(gè),平均識(shí)別精度為98.75%,從而得出本研究的方法除了能提高識(shí)別精度外,還能降低時(shí)間和空間復(fù)雜度。
本研究的方法可以實(shí)現(xiàn)煙草野火病、赤星病、蛙眼病、炭疽病的計(jì)算機(jī)自動(dòng)識(shí)別,并且可以應(yīng)用到其他農(nóng)作物的病害識(shí)別中。但是本研究還僅針對(duì)煙草4種常見典型病害的葉部危害特征進(jìn)行研究,這對(duì)于實(shí)際應(yīng)用還不夠,因?yàn)樵谡麄€(gè)煙草生長期,在不同階段根、莖、葉等都會(huì)染病,且各個(gè)部位的病害表征不盡相同;農(nóng)業(yè)與化工污染也可能對(duì)煙株造成損害形成類似病斑的斑點(diǎn),所以還需逐步增加病害和受害種類的研究。此外,支持向量機(jī)和遺傳算法作為一種有監(jiān)督的模式識(shí)別方法,在特征向量和參數(shù)的選擇研究上仍然是下一步需加強(qiáng)的工作。參考文獻(xiàn):
[1]管澤鑫,唐健,楊保軍,等. 基于圖像的水稻病害識(shí)別方法研究[J]. 中國水稻科學(xué),2010,24(5):497-502.
[2]李冠林,馬占鴻,王海光. 基于支持向量機(jī)的小麥條銹病和葉銹病圖像識(shí)別[J]. 中國農(nóng)業(yè)大學(xué)學(xué)報(bào),2012,17(2):72-79.
[3]田有文,李天來,李成華,等. 基于支持向量機(jī)的葡萄病害圖像識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2007,23(6):175-180.
[4]蔡清,何東健. 基于圖像分析的蔬菜食葉害蟲識(shí)別技術(shù)[J]. 計(jì)算機(jī)應(yīng)用,2010,30(7):1870-1872.
[5]李冉,趙天忠,張亞非,等. 基于遺傳特征選擇和支持向量機(jī)的圖像標(biāo)注[J]. 計(jì)算機(jī)工程與應(yīng)用,2009,45(6):180-183.
[6]Rough Z. Sets and intelligent data analysis[J]. Information Sciences,2002,147(1/4):1-12.
[7]陳永德,覃春華. 煙草常見病害的田間診斷[J]. 湖南農(nóng)業(yè)科學(xué),2010(18):20-22.
[8]張錚,王艷平,薛桂香. 數(shù)字圖像處理與機(jī)器視覺——Visual C++與Matlab實(shí)現(xiàn)[M]. 北京:人民郵電出版社,2010:156-162.
[9]Koschan A M. 彩色數(shù)字圖像處理[M]. 北京:清華大學(xué)出版社,2010:124-162.
[10]濮永仙. 基于支持向量機(jī)與多特征選擇的農(nóng)作物彩色病斑邊緣檢測(cè)[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2014(9):118-123.
[11]Lindgreen R,Herschberg I. On the validity of the Bell-LaPadula model[J]. Computer & Security,1994,13:317-338.
[12]Haralick R M,Shanmugam K,Dinstein I. Textual features for image classification[J]. IEEE Trans Syst Man Cybernet,1973,3(6):610-621.
[13]Mazzoni D,Garay M J,Davies R,et al. An operational MISR pixel classifier using support vector machines[J]. Remote Sensing of Environment,2007,107(1/2):149-158.
[14]Burges C C. A totorial on support vector machines for pattern recognition[J]. Data Mining and Knowledge Discovery,1998,2(2):121-169.
[15]Steve R G. Support vector machines for classification and regression[R]. Southampton:University of Southampton,1998:1-28.
[16]Oh I S,Lee J S,Moon B R. Hybrid genetic algorithms for featureselection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2004,26(11):1424-1437.
[17]Hamdani T M,Alimi A M,Karray F. Distributed genetic algorithm with Bi-coded chromosomes and a new evaluation function for features selection[C]//Evolutionary Computation,2006. CEC 2006. IEEE Congress on,2006:581-588.
[18]濮永仙,余翠蘭. 基于雙編碼遺傳算法的支持向量機(jī)作物病害圖像識(shí)別方法[J]. 貴州農(nóng)業(yè)科學(xué),2013,41(7):187-190,194.endprint