張善文 邵彧 李萍
摘要:同類葉片圖像的復雜多樣性增加了植物識別研究的難度,導致利用葉片圖像進行植物識別的識別率不高,因此提出一種基于典型相關分析(CCA)全局和局部特征融合的植物識別方法。首先,采用有較好的光照及旋轉不變性的梯度直方圖(HOG)和邊緣輪廓Fourier描述子作為植物識別的特征;然后利用CCA在特征層將HOG和Fourier描述子相融合,構成更具分類鑒別力的一個特征向量;最后利用K-最近鄰分類器進行植物識別。在ICL葉片圖像數(shù)據(jù)庫上的試驗結果表明了該方法的有效性。
關鍵詞:梯度直方圖;Fourier描述子;典型相關性分析;植物識別
中圖分類號: TN911.73;TP391.41 ?文獻標志碼: A ?文章編號:1002-1302(2019)14-0255-04
植物影響著人類賴以生存的生態(tài)系統(tǒng),對生態(tài)平衡和環(huán)境保護起著重要作用。開展植物物種的機器識別研究具有重要的現(xiàn)實意義,是計算機視角、圖像處理和植保等領域的一個主要的研究方向[1-2]。張娟研究了梅花葉片圖像的分割、特征提取、分類器分類等方面的問題,提出了一種針對自然背景下基于紋理和顏色特征的梅花圖像分割方法[3]。為了提高植物葉片識別與分類的正確率,張昭等提出了一種基于主成分分析(PCA)和支持向量機(SVM)的植物葉片識別方法。該方法從分割、邊緣檢測的葉片圖像中提取了10個具有旋轉、比例、平移不變性的無量綱葉片特征參數(shù),然后進行主成分分析,將前3個主成分作為支持向量機的輸入進行植物識別,取得了97.22%的識別率[4]。Du等提出了一種基于輪廓分形維數(shù)和葉脈分形維數(shù)描述植物葉片特征的新方法,首先利用多閾值邊緣檢測方法對葉脈和葉柄進行分割,得到多條葉脈;然后計算葉片邊緣圖像和多脈圖像的二維分形維數(shù),再提取小波分形特征進行植物識別。試驗結果證明了分形維數(shù)特征方法的有效性[5]。Mallah等建立了一個具有100多種植物且每種植物有16幅葉片圖像的數(shù)據(jù)集,并提出了一種基于葉片形狀、紋理和邊緣特征的后驗概率相結合的植物葉片分類方法[6]。Chaki等提出了一種基于紋理特征和形狀特征相融合的植物葉片分類方法,該方法對葉片圖像的形狀、大小和方位具有一定的魯棒性[7]。Munisami等構建了一套植物識別系統(tǒng),用戶可以將拍攝的葉片圖像上傳到該系統(tǒng)的服務器,服務器對葉片圖像進行預處理、特征提取和匹配。其中,提取的不同特征有葉片圖像的長和寬、面積、周長、顏色直方圖和質心-輪廓徑向距離等[8]。丁嬌等提出了一種基于差異性值監(jiān)督局部線性嵌入(D-LLE)算法的多特征植物葉片圖像識別方法,該方法提取葉片的顏色、形狀和紋理作為葉片多特征,利用D-LLE對葉片高維特征進行降維,在低維空間利用K-最近鄰分類器進行植物葉片識別[9]。王麗君等綜合提取觀葉植物葉片圖像的顏色、形狀和紋理特征,利用SVM進行識別,取得了91.41%的識別效果[10]。劉驥等針對葉緣葉裂明顯的植物葉片識別問題,提出一種基于葉片形狀特征的識別方法,該方法提取了葉片圖像的8種形狀特征,經過對8種特征的皮爾森相關系數(shù)分析與主成分分析,確定對分類貢獻最大的5個主成分,最后利用BP神經網絡進行植物識別[11]。Wang等提出了一種基于脈沖耦合神經網絡和支持向量機的植物識別方法,與現(xiàn)有方法相比,該方法具有較好的識別效果[12]。李洋等針對傳統(tǒng)植物識別方法工作任務量大、效率低下以及難以保證數(shù)據(jù)客觀性的問題,提出了一種基于形狀特征的植物葉片識別算法,并開發(fā)了一款C/S模式的植物葉片在線識別Android應用[13]。高良等針對當前葉片特征描述存在的局限和葉片識別準確率較低的問題,設計描述葉片輪廓的距離矩陣和角點矩陣,通過計算基于幾何特征、紋理特征和角點距離矩陣的綜合相似度對葉片進行精確識別,在Flavia數(shù)據(jù)集上的識別率高達97.5%以上[14]。單治磊等提出了一種基于植物多特征提取與局部嵌入融合的植物識別方法,該方法利用分塊的局部二值模式(LBP)算法提取植物葉片的紋理特征,使用局部線性嵌入(LLE)算法,對高維的LBP特征進行降維,減少了分類識別時間,同時能夠達到更好的聚類效果[15]。Jeon等提出了一種基于卷積神經網絡的植物識別方法,取得了較高的識別率,但該方法需要大量訓練樣本進行長時間訓練[16]。
在實際植物識別過程中,在復雜環(huán)境下拍攝的同一種植物的葉片圖像間差異較大,而且對于葉片圖像的顏色、形狀和紋理特征而言,由于同種葉片之間可能存在著較大差異,因而很多基于葉片的顏色、紋理和形狀特征的植物識別方法的識別率不高。不同方法得到的葉片圖像的全局特征和局部特征所描述的內容和作用各不相同,如一些基于葉片的全局特征的方法缺乏對葉片光照、拍攝角度和大小等變化的魯棒性;而單純基于葉片的局部特征的方法又忽略了局部特征之間的聯(lián)系,從而損失了部分全局特征。對于復雜背景下的植物識別問題,單純依靠某一種特征很難得到高的識別率。典型相關分析(canonical correlation analysis,CCA)通過最大化2組特征之間的相關性[17],找出2個線性變換的投影矩陣,由此得到1個融合特征向量,使變換后的2組數(shù)據(jù)相關性最大化[18]。為了提高植物識別率,提出一種基于CCA融合全局和局部特征的植物識別算法,并利用ICL葉片圖像數(shù)據(jù)集驗證其有效性。
1 材料與方法
1.1 試驗材料
試驗采用中國科學院合肥智能機械研究所智能計算實驗室的ICL植物葉片圖像數(shù)據(jù)庫(http://www.intelengine.cn/dataset/index.html),其中包括220種植物16 851幅葉片圖像,每種植物包含的葉片圖像的數(shù)目不一,紫穗槐有1 078幅葉片圖像,而五葉地錦僅有26幅葉片圖像。這些葉片圖像都是在不同的時間、光照和角度等條件下采集,然后再利用葉片圖像采集儀進行拍攝得到。圖1為葉片圖像示例。
1.2 試驗方法
基于葉片的植物分類方法由葉片的輪廓全局特征和內部局部細節(jié)來識別,這些特征反映了葉片結構的形狀和紋理特征,一般不包含顏色特征。筆者利用方向梯度直方圖(histogram of oriented gradient,HOG)特征描述子提取葉片圖像的內部細節(jié)特征,然后利用Canny邊緣檢測算法和Fourier描述子提取葉片圖像的輪廓特征,再利用CCA將2組特征向量融合為1個特征向量,最后利用K-最近鄰分類器進行植物分類。
1.2.1 方向梯度直方圖 HOG是在計算機視覺和圖像處理中廣泛使用的一種圖像局部特征提取方法,是通過計算和統(tǒng)計圖像局部區(qū)域的梯度方向直方圖來構成特征,其步驟如下:(1)葉片圖像灰度化和歸一化。采用Gamma校正法對葉片圖像進行RGB顏色空間數(shù)據(jù)歸一化處理,降低圖像局部的陰影和光照變化對特征提取的影響,而且可以抑制噪聲干擾。
2 試驗結果與分析
采用2-折交叉驗證法在ICL植物葉片圖像數(shù)據(jù)庫上進行試驗,并與紋理和形狀相結合的方法(TS)[7]、基于葉片形狀特征的方法(SH)[11]和多特征融合的方法(MFF)[14]3種植物識別方法以及直接將HOG特征和Fourier描述子串聯(lián)構成的特征向量識別方法的識別結果進行比較。由于數(shù)據(jù)庫中葉片圖像均為彩色圖像,圖像大小不一,在提取HOG和Fourier特征前須要對每幅圖像進行預處理,將每幅圖像歸一化到 32×32,再轉換為灰度圖像(圖2)。
首先,通過PCA對提取的HOG直方圖特征向量和Fourier描述子特征向量進行維數(shù)約簡;然后,利用CCA進行融合,得到1個特征向量(經驗選取維數(shù)d為50);最后,利用1-最近鄰分類器進行分類。表1為5種植物識別方法經過50次2-折交叉驗證得到的葉片圖像的平均分類率和方差。
由表1可知,本研究方法的植物識別率最高。其主要原因是利用CCA將HOG特征和Fourier描述子相融合,而CCA能夠將2組不同的特征向量有機融合,最大化2組向量之間的相關性,得到具有葉片圖像的HOG和Fourier描述子特征優(yōu)點的融合特征向量,得到了有利于分類的旋轉、尺度和光照
不變性全局和局部形狀和紋理特征,而TS方法和 HOG+Fourier方法沒有考慮2組特征之間的相關關系,SH方法提取的形狀沒有充分描述葉片圖像,MFF方法只是簡單地提取圖像的多個特征,該特征不足以表示葉片形狀,所以4種比較方法的識別率不高。
3 結論
CCA是一種經典的特征融合和維數(shù)約簡算法,利用CCA能夠對2組異構的特征向量進行融合,得到相關性很高的低維融合特征向量。本研究方法首先提取葉片圖像的全局和局部特征向量,然后利用CCA進行特征融合,最后利用K-最近鄰分類器進行植物分類。在ICL葉片圖像數(shù)據(jù)庫上的試驗結果表明,該方法是可行的。下一步繼續(xù)研究魯棒、監(jiān)督的特征提取和融合算法,并討論算法的復雜度。
參考文獻:
[1]陶行科. 基于紋理特征的葉片識別系統(tǒng)研究[D]. 北京:北京林業(yè)大學,2015.
[2]Ehsanirad A. Plant classification based on leaf recognition[J]. International Journal of Computer Science&Information Security,2010,8(4):100-109.
[3]張 娟. 基于圖像分析的梅花種類識別關鍵技術研究[D]. 北京:北京林業(yè)大學,2011.
[4]張 昭,楊民倉,何東健. 基于PCA和SVM的植物葉片分類方法研究[J]. 農機化研究,2013(11):34-37,41.
[5]Du J X,Zhai C M,Wang Q P. Recognition of plant leaf image based on fractal dimension features[J]. Neurocomputing,2013,116(10):150-156.
[6]Mallah C,Cope J,Orwell J. Plant leaf classification using probabilistic integration of shape,texture and margin features[J]. Acta Press,2013,3842(4):107-111.
[7]Chaki J,Parekh R,Bhattacharya S. Plant leaf recognition using texture and shape features with neural classifiers[J]. Pattern Recognition Letters,2015,58:61-68.
[8]Munisami T,Ramsurn M,Kishnah S,et al. Plant leaf recognition using shape features and colour histogram with k-nearest neighbour classifiers[J]. Procedia Computer Science,2015,58:740-747.
[9]丁 嬌,梁 棟,閻 慶. 基于D-LLE算法的多特征植物葉片圖像識別方法[J]. 計算機工程與應用,2015,51(9):158-163.
[10]王麗君,淮永建,彭月橙. 基于葉片圖像多特征融合的觀葉植物種類識別[J]. 北京林業(yè)大學學報,2015,37(1):55-61.
[11]劉 驥,曹鳳蓮,甘林昊. 基于葉片形狀特征的植物識別方法[J]. 計算機應用,2016,36(增刊2):200-202,226.
[12]Wang Z B,Sun X G,Zhang Y N,et al. Leaf recognition based on PCNN[J]. Neural Computing & Applications,2016,27(4):899-908.
[13]李 洋,李岳陽,羅海馳,等. 基于形狀特征的植物葉片在線識別方法[J]. 計算機工程與應用,2017,53(2):162-165,171.
[14]高 良,閆 民,趙 方. 基于多特征融合的植物葉片識別研究[J]. 浙江農業(yè)學報,2017,29(4):668-675.
[15]單治磊,張王菲,趙熙臨,等. 多特征與局部線性嵌入融合算法在植物識別中的應用研究[J]. 西南林業(yè)大學學報(自然科學版),2017,37(6):188-194.
[16]Jeon W S,Rhee S Y. Plant leaf recognition using a convolution neural network[J]. International Journal of Fuzzy Logic&Intelligent Systems,2017,17(1):26-34.
[17]Yuan Y H,Yang J L,Shen X B,et al. Discriminative scatter regularized CCA for multiview image feature learning and recognition[C]. Chinese Conference on Biometric Recognition,2015:694-701.
[18]Yang X H,Liu W F,Tao D P,et al. Canonical correlation analysis networks for two-view image recognition[J]. Information Sciences,2017,385:338-352.
[19]Neto J C,Meyer G E,Jones D D,et al. Plant species identification using Elliptic Fourier leaf shape analysis[J]. Computers and Electronics in Agriculture,2006,50(2):121-134.