方釔霖,王兆偉
(西藏大學(xué)信息科學(xué)技術(shù)學(xué)院,西藏 拉薩 850000)
青藏高原是世界上隆起最晚、面積最大、海拔最高的高原,因而被稱為“世界屋脊”,被視為南極、北極之外的“地球第三極”。西藏高原位于青藏高原的主體區(qū)域,有分屬寒帶、溫帶、亞熱帶、熱帶的種類繁多的奇花異草,據(jù)粗略估計(jì)高等種子植物可達(dá)10,000種左右。
研究西藏地區(qū)野生植物的圖像識(shí)別技術(shù),對(duì)于西藏地區(qū)野生植物的分類及植物資源的保護(hù)與利用、探索植物間的親緣關(guān)系、闡明植物的進(jìn)化規(guī)律、農(nóng)藝與園藝的實(shí)際應(yīng)用等方面具有現(xiàn)實(shí)意義。如何有效的利用測(cè)試庫內(nèi)的植物圖像準(zhǔn)確地識(shí)別出訓(xùn)練庫內(nèi)所對(duì)應(yīng)的植物圖像數(shù)據(jù)庫,以及同種植物的不同圖像更換了測(cè)試庫內(nèi)原圖像,系統(tǒng)也依然能識(shí)別出訓(xùn)練庫內(nèi)所對(duì)應(yīng)的植物圖像是一個(gè)非常值得研究的內(nèi)容[2]。
本文以紅景天屬為例。西藏自治區(qū)景天科紅景天屬總共有32種,其中根出紅景天、卵萼紅景天、報(bào)春紅景天、圣地紅景天、粗莖紅景天這5種未寫明產(chǎn)地,故這五種不予以分析;以及柴胡紅景天和紫胡紅景天數(shù)據(jù)鏈接到的是亞查紅景天和柴胡紅景天,無法確定數(shù)據(jù)準(zhǔn)確性,故這3種不予以分析;云南紅景天、紫綠紅景天、西川紅景天、德欽紅景天這4種紅景天雖在西藏有分布,但不是產(chǎn)自西藏,故不予以分析;四裂紅景天與大紅紅景天存在異議,在西藏產(chǎn)的都是大紅紅景天,故四裂紅景天不予以分析;狹葉紅景天存在變種,故不予以分析;故本文主要分析其余的18種。
1.1.1 數(shù)據(jù)來源
本文分析所使用的18種西藏產(chǎn)紅景天的圖像、信息均是從《中國植物志》(www.iplant.cn/frps)分省名錄中西藏自治區(qū),景天科,紅景天屬所查找而來[3]。
1.1.2 PCA 的基本理論
想要用SDV(奇異值分解)一步一步了解PCA,首先用一個(gè)例子來說明什么是PCA。例:假如測(cè)量了6個(gè)同種植物的基因轉(zhuǎn)錄,基因1為樣本變量1和基因2為樣本變量2,如表1。
表1 六種植物樣本的基因轉(zhuǎn)錄表
如果將測(cè)量的兩個(gè)基因數(shù)據(jù)繪制在一個(gè)二維XY圖上,如圖1中的(1)。
那么接下來要計(jì)算GENE 1和GENE 2的平均測(cè)量數(shù),然后通過平均值,計(jì)算數(shù)據(jù)的中心,從這一刻開始,將專注于圖中發(fā)生的情況,不再需要原始數(shù)據(jù)。移動(dòng)數(shù)據(jù),使中心位于圖形的原點(diǎn)(0,0)處,如圖1中的(2)。需要繪制一條穿過原點(diǎn)的隨機(jī)線,然后旋轉(zhuǎn)線,直到它盡可能的擬合數(shù)據(jù)和仍然穿過原點(diǎn)的情形下,最終這條線擬合度最好,如圖1中的(3)。這就是PCA的總體流程,流程圖如圖2。
圖2 PCA 流程圖
那么PCA是如何判定擬合度的高低的呢?在最開始的那條線(如圖1中的(3)原始隨機(jī)線)中,為了量化這條線擬合數(shù)據(jù)的程度PCA將數(shù)據(jù)投影到該線上。然后可以測(cè)量數(shù)據(jù)到線的距離并嘗試找到使這些距離最小的線。使用勾股定理,b大則c小,反之亦然。因此PCA可以最小化與線之間的距離[4]。(如圖3中(1))
圖1 PCA 找最佳擬合線過程圖
圖3 PCA 最佳擬合線處理圖
所以PCA找到擬合線是通過,最大化從投影點(diǎn)到原點(diǎn)的距離的平方和。將上述原理用數(shù)學(xué)公式表示,即設(shè)測(cè)量距離為d,則①、②、③、④、⑤、⑥的距離平方分別為,,,,,,然后將所有的這些開平方的距離求和就等于平方距離的總和(SSD),即:
最終得到的圖1中(3)的最佳擬合線,就是具有最大平方和(距離)的擬合線,即方差最大,此線叫主成分1(PC1),PC1的斜率是0.25,換言之沿著基因1軸右移4個(gè)單位,就沿基因2軸上升一個(gè)單位,這也意味著數(shù)據(jù)大部分沿著基因1分布(這就是PC1的變量們的線性組合)。
當(dāng)你用SVD算PCA時(shí)PC1的配方被縮放,以使該長度等于1,如圖3中(2)。這個(gè)單位長的向量由0.97個(gè)基因1和0.24個(gè)基因2組成,被稱為PC1的奇異向量或特征向量。每個(gè)基因的比例稱為載荷得分。PCA 把最佳擬合線距離的平方和稱為PC1的特征值。而PC1特征值的平方根稱為PC1的奇異值。這意味著PC2的配方為-1份基因1兌上4份基因2,PC2垂直于PC1,所以PC2的特征向量里,每單位向量因包含-0.242份基因1和0.97份基因2,和PC1正好相反?,F(xiàn)在,想要繪制最終的PCA圖只需要旋轉(zhuǎn)所有內(nèi)容,使PC1呈水平狀態(tài),如圖3中(4),然后用投影點(diǎn)來定位PCA圖的樣本位置。在最后通過將特征值除以(樣本量-1)來轉(zhuǎn)換成圍繞原點(diǎn)的差異。算出PC1和PC2的總差異比如是15+3=18,即說明PC1占PC總差異的0.83(15/18),即PC1所占的差異率為83%。
設(shè)計(jì)思路概述:首先建立訓(xùn)練樣本的數(shù)據(jù)集,然后對(duì)植物圖像進(jìn)行預(yù)處理,再讓系統(tǒng)從植物的訓(xùn)練庫中讀取樣本圖像,將樣本求平均向量,在計(jì)算每個(gè)樣本與平均向量的向量差放入一個(gè)矩陣,然后求出特征值和特征向量,就可以計(jì)算出樣本的協(xié)方差矩陣,然后選取特征向量降維,獲取特征,最后將目標(biāo)圖像的特征值除以(訓(xùn)練集里總的樣本數(shù)-1),求出每個(gè)樣本與目標(biāo)圖像的差異率,再從訓(xùn)練后的樣本庫中提取差異率最低的樣本數(shù)據(jù)。
所設(shè)計(jì)的植物圖像識(shí)別系統(tǒng),其步驟主要分為圖像預(yù)處理-讀取圖像-提取特征-識(shí)別,具體流程如圖4。
圖4 植物圖像識(shí)別流程圖
STEP1:圖像預(yù)處理——精確地進(jìn)行圖像對(duì)齊和圖像裁剪,將需要訓(xùn)練和測(cè)試的圖像處理成236×156像素,按照排序進(jìn)行命名并放入到TrainDatebase文件夾,為后續(xù)實(shí)驗(yàn)提供可靠的并符合模型需求的圖像數(shù)據(jù);
STEP2:讀取圖像——讀取目標(biāo)植物圖像庫的路徑,將其放入測(cè)試庫;
STEP3:提取特征——先求出樣本的平均向量,然后計(jì)算每個(gè)樣本與平均向量的差向量,將得出的向量差合成一個(gè)N*N矩陣,并求解特征向量,計(jì)算協(xié)方差矩陣,最后求出目標(biāo)植物圖像的特征值,通過降維,提取特征;
STEP4:識(shí)別——系統(tǒng)整體采用PCA(主成分分析法)的方法提取目標(biāo)植物圖像的特征值將其除(樣本數(shù)-1),求出其差異與樣本庫的差異進(jìn)行求和,最后求出目標(biāo)圖像的差異率,再從樣本庫中提取差異率最低的圖像。
與以符號(hào)為主的字符命令語言界面相比,以視覺感知為主的圖形界面具有一定的文化和語言獨(dú)立性,并可提高視覺目標(biāo)搜索的效率。因此使用MATLAB自帶的GUI設(shè)計(jì)功能設(shè)計(jì)了植物圖像識(shí)別系統(tǒng)的圖形界面,該界面由兩個(gè)圖像顯示界面、兩個(gè)靜態(tài)文本界面和四個(gè)按鈕組成,可以直觀的實(shí)現(xiàn)人機(jī)交互的功能[5-6]。植物圖像識(shí)別系統(tǒng)GUI界面如圖5。
進(jìn)入植物圖像識(shí)別系統(tǒng),點(diǎn)擊訓(xùn)練樣本庫和測(cè)試庫,訓(xùn)練成功后點(diǎn)擊選擇按鈕選擇要進(jìn)行識(shí)別測(cè)試的圖片,選擇完成后點(diǎn)擊識(shí)別按鈕進(jìn)行識(shí)別操作,可以看到在植物識(shí)別窗口的左下角會(huì)出現(xiàn)識(shí)別結(jié)果。如圖5,即經(jīng)檢測(cè),該測(cè)試圖片與訓(xùn)練集中的1.jpg圖片為同一類別,識(shí)別結(jié)果為矮生紅景天。
圖5 植物圖像識(shí)別系統(tǒng)測(cè)試界面,其中測(cè)試圖片和匹配圖片皆為矮生紅景天
本文對(duì)基于PCA(主成分分析)的識(shí)別方法進(jìn)行了介紹,并基于PCA設(shè)計(jì)出了一款植物圖像識(shí)別系統(tǒng),無需專業(yè)人士的人工干預(yù)即可使用該系統(tǒng)實(shí)現(xiàn)對(duì)景天科紅景天屬植物的識(shí)別。經(jīng)實(shí)驗(yàn)測(cè)評(píng),在同種植物不同角度圖像的情況下,能夠有效識(shí)別出該植物的屬性。
由于學(xué)業(yè)水平的限制,本文僅簡單地對(duì)部分景天科紅景天屬植物進(jìn)行了簡單研究,仍然存在一些不足需要進(jìn)一步改進(jìn),今后將從以下幾個(gè)方面進(jìn)行改進(jìn):①進(jìn)一步開展復(fù)雜情況下的植物識(shí)別研究,提升該系統(tǒng)的實(shí)用性;②進(jìn)行田野考察,利用專業(yè)設(shè)備進(jìn)一步擴(kuò)充數(shù)據(jù)集的規(guī)模;③待數(shù)據(jù)集得到有效擴(kuò)充后進(jìn)行識(shí)別準(zhǔn)確率、誤差的分析,結(jié)合分析結(jié)果進(jìn)一步改進(jìn)識(shí)別算法,逐步提升系統(tǒng)可識(shí)別植物的數(shù)量。