朱顥東++吳迪++孫振++李紅嬋
摘要:為了提高植物葉片的識(shí)別準(zhǔn)確率,提出一種基于PCA和AdaBoost.M1的植物葉片圖像識(shí)別方法。首先對(duì)植物葉片圖像進(jìn)行圖像灰度化、二值化以及邊緣提取等預(yù)處理,然后提取出13個(gè)具有比例、旋轉(zhuǎn)、平移不變性的植物葉片特征參數(shù),再利用PCA對(duì)這些特征參數(shù)進(jìn)行降維,最后采用AdaBoost.M1分類器對(duì)降維處理后的特征參數(shù)進(jìn)行訓(xùn)練和識(shí)別。結(jié)果表明,該方法可以有效地提高植物葉片圖像的識(shí)別率。
關(guān)鍵詞:葉片識(shí)別;PCA;AdaBoost.M1;圖像處理
中圖分類號(hào): TP391.41文獻(xiàn)標(biāo)志碼: A
文章編號(hào):1002-1302(2016)12-0372-03
收稿日期:2015-10-14
基金項(xiàng)目:河南省科技計(jì)劃(編號(hào):152102210357);河南省科技計(jì)劃(編號(hào):152102210149);河南省高等學(xué)校青年骨干教師資助計(jì)劃(編號(hào):2014GGJS-084);河南省高等學(xué)校重點(diǎn)科研項(xiàng)目(編號(hào):16A520030);鄭州輕工業(yè)學(xué)院校級(jí)青年骨干教師培養(yǎng)對(duì)象資助計(jì)劃(編號(hào):XGGJS02);鄭州輕工業(yè)學(xué)院博士科研基金(編號(hào):2010BSJJ038);鄭州輕工業(yè)學(xué)院研究生科技創(chuàng)新基金。
作者簡介:朱顥東(1980—),男,河南虞城人,博士,副教授,碩士生導(dǎo)師,主要研究方向?yàn)橹悄苄畔⑻幚怼⒂?jì)算智能。E-mail:zhuhaodong80@163.com。
植物作為地球上物種數(shù)量最多的生命形式,是人類生存必不可少的環(huán)境資源,它在維護(hù)生態(tài)平衡、保持水土、改善氣候等方面起到了重要的作用。近年來,隨著人類社會(huì)經(jīng)濟(jì)的發(fā)展,人與自然界形成競爭,植物種類的多樣性正在急劇下降,大量植物處于滅絕的邊緣。因此,對(duì)植物進(jìn)行分類研究進(jìn)而保持植物物種多樣性的任務(wù)越來越迫切,植物葉片的特征可以作為鑒別植物物種的重要依據(jù)。傳統(tǒng)的植物葉片識(shí)別主要依靠人工,須要投入大量的人員和時(shí)間,并且分類的結(jié)果容易受到分類人員主觀因素影響。隨著計(jì)算機(jī)圖像處理技術(shù)的不斷發(fā)展,利用數(shù)字圖像處理和模式識(shí)別技術(shù)對(duì)植物葉片進(jìn)行分類工作已經(jīng)逐步開展。闞江明等利用RBF神經(jīng)網(wǎng)絡(luò)結(jié)合植物葉片的紋理和形狀特征實(shí)現(xiàn)植物葉片的分類[1];王曉峰等提出移動(dòng)中心超球分類器,并使用植物葉片的形狀及其不變矩等特征完成了對(duì)20多種植物葉片的分類[2];王路等應(yīng)用LVQ神經(jīng)網(wǎng)對(duì)植物葉片的幾何特征和紋理特征進(jìn)行分類識(shí)別[3];朱顥東等利用余弦定理結(jié)合K-means對(duì)植物葉片進(jìn)行分類識(shí)別[4]。然而,現(xiàn)有的方法存在特征參數(shù)獲取比較復(fù)雜、訓(xùn)練樣本特征維數(shù)過高和訓(xùn)練識(shí)別率低的問題。
為了提高植物葉片識(shí)別的效率以及準(zhǔn)確度,本研究利用植物葉片的形狀特征作為識(shí)別特征,利用PCA算法對(duì)初步提取出的特征參數(shù)進(jìn)行降維,最后在低維空間用AdaBoost.M1算法對(duì)這些特征參數(shù)進(jìn)行訓(xùn)練識(shí)別。
1葉片圖像的預(yù)處理以及特征提取
植物葉片的顏色、形狀、紋理等基本特征都可以作為其物種分類的重要依據(jù),但是這些特征的提取容易受到植物葉片獲取時(shí)的拍攝距離、光照以及陰影等外界因素的影響,所以要對(duì)其進(jìn)行預(yù)處理,便于后續(xù)的特征提取。
1.1圖像預(yù)處理
[JP2]本研究所用的植物葉片圖像來自中國科學(xué)院合肥智能機(jī)械研究所建立的植物葉片圖像數(shù)據(jù)庫(http://www.intelengine.cn/data),該數(shù)據(jù)庫有220種植物,一共包含了16 846幅植物葉片圖像。以其中的1種植物葉片圖像為例,預(yù)處理過程如圖1所示:(1)將原始彩色圖像轉(zhuǎn)化為灰度圖像;(2)用Otsu二值化算法對(duì)灰度圖像進(jìn)行二值化處理;(3)用Laplace算子對(duì)二值化后的葉片圖像進(jìn)行邊緣提取得到葉片輪廓。
1.2特征提取
對(duì)植物葉片圖像預(yù)處理后得到其輪廓,求取葉片的面積、周長、最小外接矩長、最小外接矩寬等幾個(gè)簡單的區(qū)域形狀特征[5],但是這些特征會(huì)隨著植物葉片的改變而發(fā)生變化,不能客觀地描述植物葉片類型,因此本研究在獲取區(qū)域形狀特征參數(shù)的基礎(chǔ)上,計(jì)算葉片的偏心率、形狀參數(shù)、縱橫軸之比等6個(gè)具旋轉(zhuǎn)、比例、平移不變性的幾何特征參數(shù)。另外,圖像矩具有天然的旋轉(zhuǎn)、平移和尺度不變性, 采用Chen提出的
[FK(W14][TPZHD1.tif]
7項(xiàng)Hu不變矩[6],4種植物葉片特征參數(shù)提取結(jié)果如表1所示。
1997年Freund和Schipare提出了用于二分類的AdaBoost算法[7],而AdaBoost.M1是AdaBoost算法處理多類問題的直接推廣。
(1)給定樣本集S={(x1,y1),…,(xn,yn)},其中xi∈X,yi∈Y={1,2,…,k}分別對(duì)應(yīng)k類樣本,i=1,2,…,n,弱分類器為ht:X→Y,t=1,2,…,n,弱分類器數(shù)量為T;
(2)初始化樣本權(quán)值Dt(i)=1/n,i=1,2,…,n;
(3)For t=1,2,…,T(弱分類器數(shù)量);
①調(diào)用弱分類算法,使用樣本權(quán)重Dt得到弱分類器ht:X→Y;
②計(jì)算加權(quán)誤差εt=∑[DD(]ni=1[DD)]Dt(i)[yi≠ht(xi)];
③如果εt>1/2,令T=t-1,跳出For循環(huán),否則執(zhí)行④;
④令βt=εt/(1-εt),αt=ln(1/βt);
⑤令Dt+1(i)=Dt(i)βt1-[hi(xi-yi)]/Zt,i=1,2,…,n,更新樣本的權(quán)重,其中Zi是歸一化因子,最終的強(qiáng)分類器為H(x)=argmax(∑[DD(]Tt=1[DD)]αt[ht(x)=y]),符號(hào)“[]”定義如下:對(duì)于邏輯表達(dá)式π,如果π為真,則[π]=1,否則為0。
本研究用到的AdaBoost.M1的函數(shù)表示形式為function[trerr,tserr,w]= adaboostM1(type,fea_tr,lab_tr,fea_ts,lab_ts,M,cn),其中type為弱分類器類型,fea_tr、lab_tr分別為訓(xùn)練樣本和訓(xùn)練樣本的標(biāo)簽,fea_ts、lab_ts分別為測試樣本和測試樣本的標(biāo)簽,M為輪循次數(shù),cn是樣本類別數(shù),輸出w為各弱分類器的權(quán)重,trerr為訓(xùn)練錯(cuò)誤率,tserr為測試錯(cuò)誤率。
[WTHZ]3PCA特征降維
主成分分析(principal component analysis,PCA)是一種多元統(tǒng)計(jì)分析方法[8]。該方法可以從多元事物中分析出主要的影響因素,PCA作為典型的特征提取工具,其目的是在不減少原始數(shù)據(jù)包含的信息的基礎(chǔ)上將其轉(zhuǎn)換為維數(shù)較少的特征主成分來表示,提取出的主成分C1,C2,…,Cn應(yīng)該具有以下性質(zhì):
(1)提取出的主成分之間互不關(guān)聯(lián),即對(duì)任意的i和j,Ci和Cj的相關(guān)系數(shù)Corr(Ci,Cj)=0;
(2)組合系數(shù)(αi1,αi2,…,αin)構(gòu)成的向量為單位向量;
(3)各主成分的方差是依次遞減的,即:Var(C1)≥Var(C2)≥…≥Var(Cn);
(4)降維后主成分的總方差與原始數(shù)據(jù)的總方差相等,即Var(C1)+…+Var(Cn)=Var(x1)+…+Var(xp)=P,這個(gè)性質(zhì)說明主成分是原始變量的線性組合,不增加總信息量也不減少信息量。
由于本研究選擇的植物葉片圖像數(shù)量以及分類特征數(shù)量都比較多,這樣會(huì)造成在特征空間中特征向量的數(shù)量和維數(shù)都比較高,所以須要對(duì)提取出來的特征數(shù)據(jù)進(jìn)行降維處理,進(jìn)而提高分類器的識(shí)別率。具體方法為:對(duì)植物葉片圖像特征提取后的向量集合進(jìn)行歸一化,求得向量集合的協(xié)方差矩陣S=[SX(]1m[SX)]∑[DD(]mi=1[DD)](xi-μ)(xi-μ)T,其中,m為葉片圖像樣本總數(shù),每個(gè)葉片圖像的特征向量為n維;xi為第i個(gè)訓(xùn)練樣本的特征向量;μ為訓(xùn)練樣本集合的平均向量,μ=[SX(]1m[SX)]∑[DD(]mi=1[DD)]xi。將計(jì)算出的特征值按單調(diào)遞減的順序排列為λ1≥λ2≥…≥λr,與其對(duì)應(yīng)的特征向量為η1,η2,…,ηr,r≤n組成1個(gè)特征子空間Γ,任給1張植物葉片圖像xi都可投影到該子空間中,i=Γi(xi-η),i=1,2,…,r,i表示樣本xi在子空間的位置,是xi的主特征,可以代替特征向量xi輸入到AdaBoost.M1中訓(xùn)練。
4葉片識(shí)別模型及測試比較結(jié)果
本研究利用PCA+AdaBoost.M1算法對(duì)植物葉片進(jìn)行識(shí)別,對(duì)植物葉片進(jìn)行預(yù)處理后得到特征參數(shù),再經(jīng)主成分分析得到降維后的特征參數(shù),最后采用AdaBoost.M1算法對(duì)降維后的參數(shù)進(jìn)行分類識(shí)別,算法流程如圖2所示。
[FK(W18][TPZHD2.tif]
從葉片數(shù)據(jù)庫中取桂花葉片、木瓜葉片、銀杏葉片、紅楓葉片為分類試驗(yàn)對(duì)象,試驗(yàn)中每種葉片抽取60張圖片作為樣本,樣本總?cè)萘繛?40張。試驗(yàn)配置:3.4 GHz酷睿雙核、4G內(nèi)存的戴爾臺(tái)式機(jī),參數(shù)設(shè)置:輪循次數(shù)M設(shè)定為5,訓(xùn)練樣本占總體樣本的比例trainingRate設(shè)定為0.5,AdaBoost.M1的弱假設(shè)type為貝葉斯分類器,樣本類別數(shù)cn設(shè)置為4。首先按照本研究提到的特征提取方法提取這些葉片的13個(gè)特征參數(shù),由于這些特征參數(shù)之間在數(shù)量級(jí)上存在較大的差異,這樣會(huì)對(duì)分類器的分類效果的有效性和精確性造成一定的影響,所以要先對(duì)這些數(shù)據(jù)進(jìn)行歸一化處理,最后對(duì)歸一化后的數(shù)據(jù)進(jìn)行PCA降維處理。為了驗(yàn)證本研究提出的識(shí)別方法的有效性,用同樣的未經(jīng)過降維處理的數(shù)據(jù)對(duì)AdaBoost.M1進(jìn)行測試,用同樣的經(jīng)降維處理的數(shù)據(jù)對(duì)最近鄰分類器1NN進(jìn)行測試,試驗(yàn)結(jié)果如表2所示。
為了便于比對(duì),設(shè)定識(shí)別率的數(shù)值為百分?jǐn)?shù),運(yùn)行時(shí)間的數(shù)值為大于0的正數(shù)。由于PCA降維后的主成分是原始變量的線性組合,變換后的低維度數(shù)據(jù)并不會(huì)減少原始數(shù)據(jù)的信息量,所以并不會(huì)影響到葉片分類的識(shí)別率。由表2可知,與未降維的數(shù)據(jù)相比,AdaBoost.M1的識(shí)別率約提升1百分點(diǎn),運(yùn)行時(shí)間卻降低了1個(gè)數(shù)量級(jí),由此可見,經(jīng)過PCA降維后AdaBoost.M1處理數(shù)據(jù)所耗費(fèi)的時(shí)間大大地降低,同時(shí)也可以保證識(shí)別率。這表明用PCA對(duì)植物葉片的特征參數(shù)進(jìn)行降維是行之有效的方法。用同樣的降維數(shù)據(jù)對(duì)1NN進(jìn)行訓(xùn)練識(shí)別,從試驗(yàn)結(jié)果可以看出,識(shí)別率與AdaBoost.M1相比低了5.2百分點(diǎn),而這2種方法的運(yùn)行時(shí)間在同1個(gè)數(shù)量級(jí)上,說明與1NN相比,AdaBoost.M1的識(shí)別率有所提升。綜上所述,該方法在保證識(shí)別率的基礎(chǔ)上可以有效地減少植物葉片的識(shí)別時(shí)間。
5結(jié)語
本研究提出一種基于PCA與AdaBoost.M1的植物葉片圖像識(shí)別算法。該方法首先利用PCA對(duì)初步提取出的13種葉片特征進(jìn)行降維,然后在低維空間中用AdaBoost.M1算法對(duì)這些樣本進(jìn)行訓(xùn)練識(shí)別。試驗(yàn)結(jié)果表明,該方法對(duì)4種植物葉片的識(shí)別率達(dá)到98.5%,而且識(shí)別運(yùn)行的時(shí)間比未降維時(shí)處理的時(shí)間低了1個(gè)數(shù)量級(jí),具有良好的時(shí)效性,為植物葉片物種的鑒定提供一種新的識(shí)別方法。
[HS2*3]參考文獻(xiàn):
[1]闞江明,王怡萱,楊曉微,等. 基于葉片圖像的植物識(shí)別方法[J]. 科技導(dǎo)報(bào),2010,28(23):81-85.
[2]王曉峰,黃德雙,杜吉祥,等. 葉片圖像特征提取與識(shí)別技術(shù)的研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2006,42(3):190-193.
[3]王路,張蕾,周彥軍,等. 基于 LVQ 神經(jīng)網(wǎng)絡(luò)的植物種類識(shí)別[J]. 吉林大學(xué)學(xué)報(bào):理學(xué)版,2007,45(3):421-426.
[4]朱顥東,申圳. 基于余弦定理和K-means 的植物葉片識(shí)別方法[J]. 華中師范大學(xué)學(xué)報(bào):自然科學(xué)版,2014,48(5):650-655.
[5]李先鋒,朱偉興,孔令東,等. 基于 SVM 和 DS 證據(jù)理論的多特征融合雜草識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2011,42(11):164-168.
[6]Chen C C. Improved moment invariants for shape discrimination[J]. Pattern Recognition,1993,26(5):683-686.
[7]Freund Y,Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences,1997,55(1):119-139.
[8]陳佩.主成分分析法研究及其在特征提取中的應(yīng)用[D]. 西安:陜西師范大學(xué),2014:9-15.