林薇, 李勝, 曹治清
(成都中醫(yī)藥大學管理學院, 四川 成都 611137)
基于判別分析的基因分類
林薇, 李勝, 曹治清
(成都中醫(yī)藥大學管理學院, 四川 成都 611137)
利用基因表達序列識別腫瘤亞型, 具有非常重要的臨床意義. 根據(jù)大腸桿菌基因圖譜篩選出的信息基因, 采用判別分析法, 得到典型判別式函數(shù), 以閾值θ=-0.6935來進行分類, 進而確定腫瘤基因“標簽”.
判別分析; 基因分類; 典則判別函數(shù)
DNA微陣列(DNA microarray)也叫做基因芯片(Gene chip), 是在一種特殊玻璃片上安裝成千上萬個核酸探針, 最終獲取關于基因序列的信息, 使用基因芯片便于定量分析基因的表達水平, 在生物分析檢驗能力方面, 能做到快速、高效、低成本. 如果利用基因表達序列來識別腫瘤亞型, 這將具有非常重要的臨床意義.
蔡立君[1](2006)提出了一種基于遺傳算法的基因分類算法, 其基本思想是利用遺傳算法代替獨立分量分析中的傳統(tǒng)的估計分離矩陣算法,對基因表達式數(shù)據(jù)進行分類, 從而克服了結(jié)果不精確的問題.蔣紅衛(wèi)[2](2007)等人探討了基于基因表達譜的疾病分型識別模型建模方法. 方法結(jié)合白血病基因表達譜數(shù)據(jù)分析,利用偏最小二乘判別分析(PLS-DA)對利用基因微陣列數(shù)據(jù)予以建立白血病分型模型, 通過驗證, 偏最小二乘判別分析的白血病識別模型的擬合準確度和預測準確度均達到100%. 羊四清[3](2009)提出基于ICA的模式表達空間的概念,并且在此基礎上, 對數(shù)據(jù)的表達形式進行了重新構造, 并根據(jù)此表達形式進行了基因的分類, 通過實驗驗證了此類方法的可行性. 基因表達譜的回歸分析是可以處理多個基因變量間線性依存關系的統(tǒng)計方法, 于是研究者們提出了使用回歸分析基因表達譜數(shù)據(jù), 如Huang[4](2003)在將線性回歸方法應用于腫瘤的分類研究中使用了線性回歸的方法;Li.H[5](2004)等人使用互變量(Cox)回歸方法分析基因表達譜數(shù)據(jù), 用于患者的生存率預判.
判別分析又稱“分辨法”, 是在分類確定的條件下, 根據(jù)某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統(tǒng)計分析方法. 本文主要應用判別分析的思想, 將大腸桿菌的基因表達譜中的致癌基因篩選出來,利用典則判別函數(shù)對初始分組案例中的基因進行正確分類, 進而確定了基因“標簽”.
典則判別函數(shù)基于Bayes判別思想建立, 主要用于考察各類別的觀測值之間的相關關系, 然后根據(jù)建立的分類規(guī)則對原始樣本重新進行分類, 通過比較預測分類與原始分類, 確定對初始樣本的判別準確率.
1.1 樣本的方差解釋及檢驗
就一維總體而言, 取值的分散性可以用方差刻畫. 因此用歐氏距離除以方差作為點到總體的遠近, 對判別分析而言就比較合理.但是就本文在處理p維總體的判別問題時, 對應于總體方差的是協(xié)差陣∑, 為此定義
度量總體Gi中兩點x,y之間的距離;
作為樣本x到總體Gi的距離.
其中μi、∑i分別為總體Gi的均值向量和協(xié)差陣. 若D(x,G1)<D(x,G1), 則x∈G1; 若D(x,G1)>D(x,G1), 則x∈G2; 若D(x,G1)=D(x,G1), 則不判.
根據(jù)數(shù)據(jù)篩選出信息基因28個, 采用判別分析法, 可知判別函數(shù)的方差解釋和顯著性檢驗, 如表1, 表2
表1 特征值
a: 分析中使用了前一個典則判別函數(shù).
表2 Wilks的Lambda
特征值表格給出了典則判別函數(shù)所能解釋的方差變異, 表1說明該函數(shù)解釋了所有變異. ”Wilks的Lambda”用于檢驗該判別函數(shù)是否具有統(tǒng)計學上意義, 表2從Sig值看, 在0.1的顯著性水平上是比較顯著的, 從而可以接受由此建立的判別規(guī)則.
1.2 典則判別函數(shù)
利用SPSS軟件求出判別函數(shù), 得到標準化的典型判別式函數(shù)f(e)為:
其中,ei(i=1,2,…,28)為篩選的信息基因.
將62個樣本對應的的信息基因數(shù)據(jù)代入判別函數(shù)求出對應的62個指標值(見圖1、圖2)
圖1 VAR00001=0的典則判別函數(shù)1
圖1說明22個致癌基因的均值為-3.04, 標準偏差為0.973.
圖2 VAR00001=1的典則判別函數(shù)1
圖2說明隨機抽取的40個基因的均值為1.67, 標準偏差為1.014.
通過觀察, 22個正常的樣本的指標值都為負, 而40個癌癥樣本對應的指標值絕大部分都是正數(shù), 可以發(fā)現(xiàn),若指標值越小, 就越能說明此人的基因未發(fā)生突變; 若指標值越大, 就越能說明此人是癌癥病人. 采用取各自中間值的方法, 將閾值θ定義為:
i為22個正常樣本中的最大值,j為40個癌癥樣本中的最小值
最后根據(jù)樣本的判別式得分與θ的關系進行判斷:
(1)當樣本的判別式f(e)>θ時, 樣本的基因標簽定為癌變;
(2)當樣本的判別式f(e)<θ時, 樣本的基因標簽定為正常;
(3)當樣本的判別式f(e)=θ時, 樣本的基因標簽不作判斷.
利用SPSS軟件, 采用判別分析法, 按照案例順序的統(tǒng)計量, 可以知道i=-1.448,j=0.061,那么閥值θ=-0.6935,
對分析中的樣本進行驗證, 詳情見表3的分類結(jié)果.
表3 分類結(jié)果
表3說明: 在腫瘤基因分類中, 對初始分組案例進行了完全正確的分類, 在進行交叉分組驗證時, 對樣本的82.3%進行分類.
[1] 蔡立軍, 林亞平, 盧新國, 等. 基于遺傳算法的基因分類[J]. 電子學報, 2006, 34(11): 2115-2119.
[2] 蔣紅衛(wèi), 夏結(jié)來, 李園, 等. 偏最小二乘判別分析在基因微陣列分型中的應用[J]. 中國衛(wèi)生統(tǒng)計, 2007, 24(4): 372-374.
[3] 羊四清, 盧新國, 易葉青. 基于 ICA 模式空間的基因分類[J].計算機工程與應用, 2009, 45(23): 40-43.
[4] HUANG X, PAN W. Linear Regression and Two-class Classification with Gene Expression Data[J]. Bioinformatics, 2003, 19: 2072-2078.
[5] LI H, GUI J. Partial Coxregression analysis for Highdimensional Microarray Gene Expression Data[J]. Bioinformatics, 2004, 20: I208-I215.
[6] 林杰斌, 林川雄. SPSS12統(tǒng)計建模與應用實務[M]. 北京: 中國鐵道出版社, 2006.
[7] 袁新生, 邵大宏. LINGO和EXCEL在數(shù)學建模中的應用[M]. 北京: 科學出版社, 2007.
Gene classification based on discriminate analysis
LIN Wei, LI Sheng, CAO Zhi-qing
(School of Management, Chengdu University of TCM, Chengdu 611137, P.R.C.)
There is important clinical significance for gene expression sequences to identify cancer subtypes. According to E.coli genome information genes, the paper uses discriminate analysis to obtain canonical discriminate function and classify with threshold θ=-0.6935. And then the cancer gene label is determined.
discriminate analysis; gene classification; canonical discriminate function
O29
A
1003-4271(2014)01-0097-04
10.3969/j.issn.1003-4271.2014.01.20
2013-11-18
林薇(1987-), 女, 助教, 碩士, 研究方向: 可靠性理論與應用; 郵箱: linwei2321@163.com.
成都中醫(yī)藥大學科技發(fā)展基金.