• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      逐步判別分析法在基因表達(dá)數(shù)據(jù)分類中的應(yīng)用

      2011-02-10 01:56:44楊,陳
      關(guān)鍵詞:判別函數(shù)協(xié)方差總體

      鄒 楊,陳 忠

      (長(zhǎng)江大學(xué)信息與數(shù)學(xué)學(xué)院,湖北荊州434023)

      謝俊宇

      (洪湖賀龍高級(jí)中學(xué),湖北洪湖433200)

      利用基因芯片技術(shù)測(cè)定的基因表達(dá)值是一組多變量的高維數(shù)據(jù)。這些數(shù)據(jù)可以用于對(duì)組織細(xì)胞進(jìn)行分類,也可以用于挖掘?qū)膊∮需b別意義的特征基因,進(jìn)而為醫(yī)學(xué)診斷和治療提供參考。目前,對(duì)于此類基因表達(dá)數(shù)據(jù)分類問(wèn)題有很多研究方法,如線性判別分析法和支持向量機(jī)等,線性判別分析比復(fù)雜的預(yù)測(cè)方法效果要好[1]。

      在進(jìn)行判別分類時(shí),不同基因的表達(dá)值對(duì)于分類結(jié)果影響不同。因此,變量 (基因表達(dá)值)的選擇是一個(gè)決定判別效果的關(guān)鍵問(wèn)題。下面,筆者利用多元統(tǒng)計(jì)分析中的逐步判別分析法對(duì)基因表達(dá)水平數(shù)據(jù)進(jìn)行分析。首先,用逐步判別法篩選出了能夠區(qū)分2個(gè)總體的特征基因。然后,基于這些特征基因的表達(dá)值數(shù)據(jù),利用Bayes判別法建立判別函數(shù),對(duì)未知類型的基因表達(dá)值數(shù)據(jù)進(jìn)行分類。

      1 逐步判別分析原理

      1.1 判別函數(shù)的建立

      逐步判別是一種篩選變量的方法。篩選的過(guò)程其實(shí)就是作假設(shè)檢驗(yàn)的過(guò)程,通過(guò)檢驗(yàn)找出顯著性變量,剔除不顯著變量[2,3]。所建立的判別函數(shù)中僅保留了對(duì)分類判別能力顯著的變量。

      1.2 判別結(jié)果的檢驗(yàn)

      1)總體均值的檢驗(yàn) 假設(shè)2總體Gi~N(μi,∑i)(i=1,2),為檢驗(yàn)2總體的均值是否有顯著性差異(H 0:μ(1)=μ(2)),可以構(gòu)造F 統(tǒng)計(jì)量[4]:

      式中,d2(1,2)=(ˉX(1)-ˉX(2))′S-1(ˉX(1)-ˉX(2));ni是第i個(gè)總體的樣品個(gè)數(shù)(i=1,2)。

      計(jì)算F統(tǒng)計(jì)量的值f,得p=P{F≥f}。若p小于給定的顯著性水平a(常取a=0.05),則否定2總體均值相等的假設(shè),即對(duì)這2個(gè)總體討論判別問(wèn)題是有意義的。

      2)錯(cuò)判率的估計(jì) 利用舍一法 (或稱交叉確認(rèn)法)對(duì)錯(cuò)判率進(jìn)行估計(jì)。

      2 實(shí)例分析

      以2001年北京大學(xué)校內(nèi)數(shù)學(xué)建模競(jìng)賽試題 (B題)為實(shí)例進(jìn)行分析。原始數(shù)據(jù)共60行114列,分別代表60個(gè)人和114條基因。其中,有4條基因的表達(dá)值完全相同 (分別為原始數(shù)據(jù)的第37、38、39和40列),這里僅保留其中的一列,故有效檢測(cè)基因應(yīng)為111條(記為向量x1~x111)。

      數(shù)據(jù)中,前20行是20個(gè)癌癥病人的基因表達(dá)水平的樣本 (記為第0~19組),為分析需要,記其為第1類樣本;其后的20行是20個(gè)正常人的基因表達(dá)信息樣本,對(duì)應(yīng)于第20~39組,記為第2類樣本;剩余的第40~59組表達(dá)值為20個(gè)待檢測(cè)的樣本 (未知它們是否正常)。假設(shè)原問(wèn)題所提供的2類樣本均來(lái)自于正態(tài)分布的總體。

      2.1 依據(jù)特征基因的判別分類

      1)特征基因的選取 利用SAS中逐步判別法的命令 “proc stepdisc”完成變量篩選的工作[5]。設(shè)定引入變量到判別式的顯著性水平為0.10,剔除變量的顯著性水平為0.15。通過(guò)逐步篩選,最終選出了 32 個(gè) 變量, 其序號(hào) 為:x1、x5、x8、x12、x18、x20、x24、x25、x27、x36、x37、x39、x57、x58、x60、x67、x69、x71、x72、

      x75、x76、x79、x 92、x93、x95、x97、x99、x102、x104、x105、x109和 x111。它們就是能夠區(qū)分 2 類樣本的特征基因。

      2)判別過(guò)程的實(shí)現(xiàn) 在建立判別函數(shù)之前,要先對(duì)2總體協(xié)方差矩陣是否相等進(jìn)行檢驗(yàn)(H0:∑1=∑2)。其中,∑i表示第i個(gè)總體Gi~N(μi,∑i)(i=1,2)的協(xié)方差矩陣。

      利用SAS中的命令 “pool=test”實(shí)現(xiàn)對(duì)2總體協(xié)方差矩陣是否相等進(jìn)行檢驗(yàn)。結(jié)果表明,在顯著性水平α=0.10時(shí)接受了原假設(shè)。可以利用合并協(xié)方差陣建立判別函數(shù)。

      依據(jù)篩選出的特征基因構(gòu)成2個(gè)新的總體 (其中每一組表達(dá)值僅有32個(gè)變量)。利用Bayes判別法建立判別函數(shù),對(duì)未分類的表達(dá)值 (第40~59組)進(jìn)行判別分類。利用SAS中判別分析的命令 “proc discrim”實(shí)現(xiàn)這一過(guò)程。該程序輸出了Bayes判別函數(shù)的系數(shù),則隸屬第1(2)類總體的判別函數(shù)y1(y 2)分別為:

      依據(jù)上述判別函數(shù),計(jì)算后驗(yàn)概率,對(duì)未知類別的基因表達(dá)值數(shù)據(jù)分類。經(jīng)計(jì)算可知,在未知類別的第40~59組基因表達(dá)值中,屬于第1類總體 (癌癥病人)的共有13個(gè),其序號(hào)為 {40,42,45,46,47,48,49,51,52,53,54,57,58};屬于第2類總體 (正常人)的共有7個(gè),其序號(hào)為 {41,43,44,50,55,56,59}。

      2.2 判別結(jié)果的檢驗(yàn)

      2個(gè)新總體之間的平方距離為385783,其F統(tǒng)計(jì)量為22208,相應(yīng)的p小于0.0001(<0.01)。這說(shuō)明利用特征基因構(gòu)造的2個(gè)新的總體,其基因的表達(dá)值有顯著性差異,討論判別分類問(wèn)題是有意義的。利用SAS程序中的 “crosslist”命令對(duì)判別分類的結(jié)果進(jìn)行交叉驗(yàn)證 (舍一法),用以估計(jì)錯(cuò)判造成的損失。輸出結(jié)果顯示,其錯(cuò)判率為0。

      作為對(duì)比,利用所有基因的表達(dá)值數(shù)據(jù)構(gòu)造判別函數(shù),觀察其對(duì)原訓(xùn)練樣本交叉驗(yàn)證的錯(cuò)誤率。結(jié)果顯示,其錯(cuò)誤率為20%。

      [1]Dodoit S,Fridlyand J,Speed T P.Comparison of discrimination methods for the classification of tumor susing gene expression data[J].Am Stat Assoc,2002,457(97):77-87.

      [2]高惠璇.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:北京大學(xué)出版社,2005:205-211.

      [3]賈云青,侯木舟.Bayes判別分析在醫(yī)療數(shù)據(jù)處理中的應(yīng)用[J].數(shù)學(xué)理論與實(shí)踐,2009,29(2):117-119.

      [4]高惠璇.實(shí)用統(tǒng)計(jì)方法與SAS系統(tǒng) [M].北京:北京大學(xué)出版社,2001:176-178.

      [5]何寧,吳黎兵.統(tǒng)計(jì)分析系統(tǒng)SAS[M].武漢:武漢大學(xué)出版社,2005:261-271.

      猜你喜歡
      判別函數(shù)協(xié)方差總體
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      2020年秋糧收購(gòu)總體進(jìn)度快于上年
      游樂(lè)設(shè)施事故與危險(xiǎn)量化判別函數(shù)的構(gòu)建
      外匯市場(chǎng)運(yùn)行有望延續(xù)總體平穩(wěn)發(fā)展趨勢(shì)
      探究上市公司財(cái)務(wù)預(yù)警的數(shù)學(xué)模型
      直擊高考中的用樣本估計(jì)總體
      不確定系統(tǒng)改進(jìn)的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預(yù)報(bào)器
      一種基于廣義協(xié)方差矩陣的欠定盲辨識(shí)方法
      基于Fisher判別函數(shù)的酒店員工離職預(yù)警研究
      縱向數(shù)據(jù)分析中使用滑動(dòng)平均Cholesky分解對(duì)回歸均值和協(xié)方差矩陣進(jìn)行同時(shí)半?yún)?shù)建模
      班玛县| 和平县| 民勤县| 南城县| 永德县| 武汉市| 永丰县| 天津市| 广宁县| 桃园县| 浪卡子县| 广宁县| 文昌市| 涿州市| 富锦市| 津南区| 牡丹江市| 绍兴市| 永泰县| 香河县| 正蓝旗| 贵南县| 沙田区| 略阳县| 太谷县| 郁南县| 禹州市| 朝阳区| 团风县| 恭城| 五常市| 武定县| 古浪县| 晋州市| 台前县| 厦门市| 大兴区| 辉县市| 微博| 嘉鱼县| 迁安市|