曹 靜,胡海波,宋丁全
(南京林業(yè)大學(xué)森林資源與環(huán)境學(xué)院,江蘇南京 210037)
Fisher線性判別方法(Fisher Linear Discriminant Analysis,FLD)是1936年Fisher提出的[1]。它的目標(biāo)是在原始樣本空間里找到某(幾)個(gè)方向,把樣本投影到該方向上后分開的效果最好,即根據(jù)實(shí)際情況找到最易于分類的投影線[2]。Fisher線性判別是運(yùn)用方差分析的思想來導(dǎo)出判別函數(shù)[3],即在已知研究對(duì)象分成若干類型,并已取得各種類型的一批已知樣品的觀測數(shù)據(jù)的基礎(chǔ)上,用多元函數(shù)極值思想,通過使類間方差達(dá)到最大而類內(nèi)方差達(dá)到最小,建立判別式,然后對(duì)未知類型的樣品進(jìn)行判別分析[4-5]。
近年來,Fisher線性鑒別分析在模式識(shí)別領(lǐng)域得到了廣泛的應(yīng)用和擴(kuò)展[6]。游華等[7]運(yùn)用Fisher判別法對(duì)于三類鳶尾花進(jìn)行判別,取得了較為滿意的結(jié)果。張焱等[8]基于Fisher判別分析對(duì)川金絲猴亞種進(jìn)行鑒定,同樣取得了良好的結(jié)果。鐘紹軍等[9]將Fisher判別法應(yīng)用于乳房癌的診斷中,對(duì)未知乳房腫瘤性質(zhì)的病例進(jìn)行了成功的診斷。近年來,基于Fisher鑒別準(zhǔn)則的線性鑒別分析方法在人臉識(shí)別、漢字識(shí)別等模式識(shí)別領(lǐng)域,均取得了較好的效果。如苑瑋琦[10]、桑海峰[11]等基于二維 Fisher線性判別對(duì)人耳的識(shí)別;高全華等[12]基于Fisher準(zhǔn)則特征融合策略對(duì)PNN車牌漢字識(shí)別的研究。
在植物識(shí)別的問題上,由于各植物之間的界線往往不一定很清晰,在許多情況下都帶有模糊性。例如:描述一朵花是紅色的,這個(gè)紅色的概念有淺紅色的、深紅色的、紫紅色的、桔紅色的等,這是一個(gè)不明確的概念。而數(shù)值分類則是按一定數(shù)學(xué)方法,建立數(shù)學(xué)模型,對(duì)樣本進(jìn)行識(shí)別,相對(duì)而言比較客觀。從植物分類學(xué)的角度來看,葉片是植物最為直觀的外觀特征之一,并且非常易于采集與攜帶。本文旨在通過建立Fisher判別模型對(duì)相似的兩種葉片進(jìn)行判別。選取苦櫧(Castanopsis sclerophylla)和青岡櫟(Cyclobalanopsisglauca)的葉片為研究對(duì)象,主要是由于兩種植物葉型相似性較大,一般地,以葉鋸齒及葉背面顏色區(qū)分,本文收集兩種植物的葉片長度及葉片 1/2處寬度作為定量指標(biāo),從定量分析的角度對(duì)兩種葉片的判別進(jìn)行嘗試。
Fisher判別法的基本思想是將高維數(shù)據(jù)點(diǎn)投影到低維空間(如一維直線)上,數(shù)據(jù)點(diǎn)比較密集,從而可以克服由于維數(shù)高而引起的“維數(shù)禍根”[1]。本文主要考慮兩類(k=2)的情況,多類的情況可以依此類推。從兩個(gè)總體中抽取具有 n個(gè)指標(biāo)的樣本觀測數(shù)據(jù),借助方差分析的思想構(gòu)造一個(gè)判別函數(shù)或稱為判別式:y=C1x1+C2x2+…+Cnxn,確定系數(shù)的原則是使兩組間方差達(dá)到最大,而使每個(gè)組內(nèi)部的方差達(dá)到最小,得出判別式之后,對(duì)于一個(gè)新的樣本,將它的 n指標(biāo)代入該判別式求出 y值,然后與判別臨界值 C進(jìn)行比較,依據(jù)判別準(zhǔn)則就可以判別它屬于哪一個(gè)總體。
設(shè)有兩個(gè)類群(Ⅰ,Ⅱ),從兩個(gè)類群中分別獨(dú)立地抽取p和q個(gè) n維樣本,數(shù)據(jù)按類群分別排列如表1所示。
則兩個(gè)類群的分類均值可以分別表示為:
表1 樣本數(shù)據(jù)分列表
現(xiàn)假設(shè)判別函數(shù)為:
為了使判別函數(shù)能夠很好地區(qū)分來自不同類群的樣品,構(gòu)造函數(shù):
由此可確定判別函數(shù)的系數(shù)C1,C2,…,Cn,從而得出新的判別函數(shù):
有了判別函數(shù)后,要進(jìn)行判別還需確定判別值 C,在兩兩總體先驗(yàn)概率相等的條件假設(shè)下,一般取C為-y(1)和-y(2)加權(quán)平均值,即:
判別值
代入判別函數(shù)y=C1x1+C2x2+…+Cnxn,則判別規(guī)則為:對(duì)于新樣品x,將其代入判別函數(shù)求得y值,如果y>C,則x屬于第Ⅰ類;如果y<C,則x屬于第Ⅱ類。
②將樣本數(shù)據(jù)回代至判別函數(shù),計(jì)算兩類重心,依式(6)計(jì)算判別值 C,再按判別規(guī)則判別。
③回判檢驗(yàn),計(jì)算誤判率及判別準(zhǔn)確度。
采集苦櫧、青岡櫟葉片各 50片。收集葉片長度和葉片 1/2處寬度的度量數(shù)據(jù)。取葉片長 l為橫坐標(biāo),葉片1/2處寬度 d為縱坐標(biāo),將這些度量數(shù)據(jù)作出散點(diǎn)圖,如圖1所示。
從圖1中可以看到:雖然長度l和寬度d的大量數(shù)據(jù)有隨機(jī)性,但從總體上看,點(diǎn)的分布具有一定的規(guī)律性,苦櫧和青岡櫟在平面中各占據(jù)一定的區(qū)域。在圖中尋找分界線,假如另有一個(gè)待鑒定的標(biāo)本,度量了相應(yīng)的葉長l和葉寬d,在坐標(biāo)圖中描點(diǎn)P(l,d),若P在分界線之上為青岡櫟,在下為苦櫧。于是獲得一個(gè)利用作圖進(jìn)行判別鑒定的方法,在此基礎(chǔ)上,把作圖法定量化,用Fisher判別分析法進(jìn)行判別分析。
圖1 苦櫧與青岡櫟長度與寬度散點(diǎn)圖
類群Ⅰ:苦櫧,指標(biāo)n=2,原始數(shù)據(jù)p=50;
類群Ⅱ:青岡櫟,指標(biāo)n=2,原始數(shù)據(jù)q=50。
根據(jù)Fisher判別函數(shù)的運(yùn)算步驟得出:
(2)d1=0.856;d2=-0.78。
(3)S11=532.851 6;S12=192.623;S22=81.851 4。
(4)判別系數(shù)C1=220;C2=-581;判別函數(shù)為y=220x1-581x2。
(5)判別值C=-4.914。
(6)回判檢驗(yàn),將建立模型的 100組樣本數(shù)據(jù)逐一回判,結(jié)果顯示判別準(zhǔn)確率為 94%。
(1)為了準(zhǔn)確考察苦櫧與青岡櫟葉片F(xiàn)isher判別模型的有效性與正確性,筆者另采集苦櫧與青岡櫟的樣本數(shù)據(jù)各25枚,回判率為92%。50個(gè)擴(kuò)大樣本數(shù)據(jù)的Fisher判別結(jié)果如表2所示。
表2 50個(gè)擴(kuò)大樣本數(shù)據(jù)的Fisher法測定值判別結(jié)果
(2)筆者就葉形相似的浙江楠、紫楠葉片同樣進(jìn)行了Fisher判別函數(shù)的建立及判別,結(jié)果顯示判別回歸率為92%,此判別結(jié)果比較穩(wěn)定,也表明Fisher判別分析對(duì)于同類問題的研究具有一定的實(shí)際意義。
(3)本文旨在為同類問題的研究提供一些基礎(chǔ)。對(duì)于同類研究問題,如特征相似的多種植物的分類,可以根據(jù)需要選取各種特征作為參數(shù)進(jìn)一步研究,若能客觀地獲得多組分類屬性,同時(shí)進(jìn)行最優(yōu)組合因子的選取,將能有效地提高預(yù)測的準(zhǔn)確度。
(4)本研究還有需進(jìn)一步完善的地方:本文考慮取樣的客觀性及方便性,選取顯示植物最直觀特征之一的葉片為研究對(duì)象,有些難以準(zhǔn)確量化的指標(biāo)沒有選取,指標(biāo)體系有待完善;另外,由于文中選取的樣本數(shù)據(jù)有限,在實(shí)際應(yīng)用中需進(jìn)一步積累數(shù)據(jù)。
[1] Fisher R A.The Use of Multiple Measurements in Taxonomic Problems[J].Annals of Eugenics,1936(7):179-188.
[2] 周德龍,高文,趙德斌.基于奇異值分解和判別式KL投影的人臉識(shí)別[J].軟件學(xué)報(bào),2003,14(4):783-789.
[3] 張露露.基于Fisher判別法的企業(yè)財(cái)務(wù)危機(jī)預(yù)警研究[J].企業(yè)導(dǎo)報(bào),2010(2):47-48.
[4] 周靜芋,宋世德,郭滿才.常用費(fèi)歇判別準(zhǔn)則的比較[J].西北農(nóng)林科技大學(xué)學(xué)報(bào):自然科學(xué)版,2002,30(5):121-123.
[5] 顏可珍.基于Fisher判別分析法巖質(zhì)邊坡穩(wěn)定性評(píng)價(jià)[J].公路,2010,1(1):1-4.
[6] Ahonen T,Hadid A,Pietikainen M.Face Description with Local Binary Patterns:Application to Face Recognition[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2006,28(12):2037-2041.
[7] 游華,郭福星.最優(yōu)組合因子Fisher判別法[J].福州大學(xué)學(xué)報(bào):自然科學(xué)版,2001,29(3):1-4.
[8] 張焱,湯強(qiáng).Fisher判別分析法在川金絲猴亞種鑒定中的應(yīng)用[J].生物數(shù)學(xué)學(xué)報(bào),2003,18(2):238-242.
[9] 鐘紹軍,葉小青.費(fèi)歇判別法在乳房癌診斷中的應(yīng)用[J].黃岡師范學(xué)院學(xué)報(bào),2004,24(3):27-31.
[10] 苑瑋琦,郭偉芳,柯麗.基于二維Fisher線性判別的人耳識(shí)別[J].光電工程,2009,2(36):132-136.
[11] 桑海峰,金云平,苑瑋琦.基于二維Fisher線性判別的人臉耳組合識(shí)別[J].光電子激光,2010,4(21):588-592.
[12] 高全華,張士勇,孫鋒利.基于Fisher準(zhǔn)則特征融合策略的PNN車牌漢字識(shí)別[J].現(xiàn)代電子技術(shù),2010,8(319): 106-110.