田 兵
(包頭師范學(xué)院《陰山學(xué)刊》編輯部,內(nèi)蒙古包頭014030)
判別分析法是根據(jù)所研究個(gè)體的觀測(cè)值來(lái)構(gòu)建一個(gè)綜合標(biāo)準(zhǔn)用來(lái)推斷個(gè)體屬于已知種類(lèi)中的哪一類(lèi)的方法,[1]這種統(tǒng)計(jì)方法在自然科學(xué)和社會(huì)科學(xué)的研究中會(huì)經(jīng)常用到.因?yàn)樗捎玫臉?biāo)準(zhǔn)有很多種,所以判別分析也有多種方法,其中Fisher判別分析是常用的判別分析法之一.[2]
Fisher判別法的數(shù)學(xué)思想是將多維空間中的點(diǎn)投影到一維直線y上,使得由總體θ1和θ2產(chǎn)生的y盡可能分開(kāi),然后再利用距離判別法建立判別準(zhǔn)則,進(jìn)而達(dá)到判別個(gè)體所屬群體的一種統(tǒng)計(jì)方法.[3]
假設(shè)θ1和θ2為二維總體,如圖1所示,“●”為θ1的點(diǎn),“○”為θ2的點(diǎn),按照原來(lái)的橫坐標(biāo)x1和縱坐標(biāo)x2,很難將這兩個(gè)總體的點(diǎn)分開(kāi),但是如果將這些點(diǎn)朝直線y上投影,形成一維空間點(diǎn)的集合,則能比較容易地分開(kāi).[4]
圖1
顯然,直線y是x1和x2的線性組合,即y=c1x1+c2x2.一般地,設(shè)在p維空間里,x的線性組合為y=αTx,其中:α為p維實(shí)向量,設(shè)θ1和θ2的均值分別為μ1和μ2,它們有共同的協(xié)方差陣∑,那么線性組合y=αTx的均值為
顯然,使得μ1y和μ2y的距離越大的線性組合越好,所以考察以下比值
現(xiàn)在的問(wèn)題轉(zhuǎn)化為:如何選擇α,使得(1)式達(dá)到最大值?
通過(guò)證明,我們有這樣的結(jié)論:設(shè)x為p維隨機(jī)向量,y=αTx,當(dāng)α=c∑-1(μ1-μ2)(c為非零常數(shù))時(shí),(1)式可取到最大值.特別地,當(dāng)c=1時(shí),線性函數(shù)
稱(chēng)為Fisher線性判別函數(shù).
當(dāng) y=(μ1- μ2)T∑-1x < μy時(shí),則認(rèn)為 x∈ θ2.
如果記W(x)=(μ1-μ2)T∑-1x-μy,則判別準(zhǔn)則等價(jià)于:
當(dāng)W(x)≥0時(shí),則認(rèn)為x∈θ1;當(dāng)W(x)<0時(shí),則認(rèn)為x∈θ2.
在實(shí)際的計(jì)算中,總體的均值與協(xié)方差陣未知,就需要用樣本均值與協(xié)方差陣來(lái)代替.即用樣本均值1和2分別代替μ1和μ2,用樣本的協(xié)方差矩陣來(lái)代替.這里的S1和S2分別是兩個(gè)樣本的協(xié)方差陣.[5]
如果變量很多或者有多個(gè)總體,通常要選擇若干個(gè)投影,即選若干個(gè)判別函數(shù)來(lái)進(jìn)行判別.
設(shè)有 k 個(gè)總體 θ1,θ2,…,θk,有共同的協(xié)方差陣∑,θi的均值為 μi.令
考慮p維隨機(jī)向量x的線性組合y=αTx,α為p維實(shí)向量,則y的均值和方差為
現(xiàn)在的問(wèn)題在于:如何選擇α,使得(2)式達(dá)到最大值.為了方便起見(jiàn),設(shè)
我們通過(guò)下面的結(jié)論來(lái)解決這個(gè)問(wèn)題:
設(shè) λ1≥ λ2≥ …≥ λs> 0為∑-1G的s個(gè)非零特征根,s≤min(k-1,p),e1,e2,…,es為相應(yīng)的特征向量且滿足eT∑e=1,那么a1=e1時(shí),使得(2)式達(dá)到最大值的解,稱(chēng)為第一個(gè)判別函數(shù),而a2=e2時(shí),在約束條件之下使得(2)式達(dá)到最大值的解,稱(chēng)為第二個(gè)判別函數(shù).如此下去,as=es是在約束條件之下使得(2)式達(dá)到最大值的解,稱(chēng)為第s個(gè)判別函數(shù).
當(dāng)總體的均值和協(xié)方差陣未知時(shí),通常采用樣本均值和樣本協(xié)方差陣來(lái)代替.和兩個(gè)總體的Fisher判別法類(lèi)似,也可以建立多個(gè)總體的Fisher判別規(guī)則.[5]
在研究沙基液化問(wèn)題中,選了7個(gè)因子.從已液化和未液化的地層中分別抽取了12個(gè)和23個(gè)樣本,具體數(shù)據(jù)見(jiàn)表1.其中Ⅰ表示已液化,Ⅱ表示未液化,試用Fisher判別法對(duì)上述樣本進(jìn)行判別分析.
表1 沙基液化與未液化樣本數(shù)據(jù)
28 Ⅱ 7.5 52 1 6 6 0.16 40 29 Ⅱ 7.5 52 1 7.5 8 0.16 40 30 Ⅱ 8.3 97 0 6 5 0.15 180 31 Ⅱ 8.3 97 2.5 6 5 0.15 180 32 Ⅱ 8.3 89 0 6 10 0.16 180 33 Ⅱ 8.3 56 1.5 6 13 0.25 180 34 Ⅱ 7.8 172 1 3.5 6 0.21 45 35 Ⅱ7.8 283 1 4.5 6 0.18 45
我們發(fā)現(xiàn)這是一個(gè)兩個(gè)總體判別分析的問(wèn)題,可以通過(guò)Fisher判別分析法來(lái)進(jìn)行判別.首先計(jì)算兩個(gè)樣本的均值和協(xié)方差陣,可以得到
進(jìn)一步可以得到樣本的協(xié)方差陣為:
所以,樣本的Fisher判別函數(shù)為:
因此有判別準(zhǔn)則
將給定的樣本 x0=(a,b,c,d,e,f,g)代入到上述判別準(zhǔn)則.如果 W(x)≥ 0,則認(rèn)定 x0∈ θ1;否則x0∈ θ2.例如第 11 號(hào)樣本 x11=(7.8,172,1,3.5,14,0.21,45),可以得到
所以第11號(hào)樣本屬于已液化的沙基樣本.
將所有樣本進(jìn)行回代,我們可以得到如下結(jié)果:
第 9 號(hào)樣本 x9=(7.5,52,3.5,7.5,6,0.16,40),
可以得到 W(x)=-0.6539488<0.
所以第9號(hào)樣本應(yīng)該屬于未液化的沙基樣本.
[1]黃利文.改進(jìn)的Fisher判別方法[J].福州大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,34(4):473-474.
[2]李建軍,丁正生,張海燕.常用判別分類(lèi)方法分析[J].西安科技大學(xué)學(xué)報(bào),2007,27(1):138-139.
[3]潘勁松.Fisher判別分析及應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2013,43(5):155-156.
[4]費(fèi)宇.應(yīng)用數(shù)理統(tǒng)計(jì):基本概念與方法[M].北京:科學(xué)出版社,2007.
[5]薛毅,陳立萍.統(tǒng)計(jì)建模與R軟件[M].北京:清華大學(xué)出版社,2007.