馮變英
(運(yùn)城學(xué)院 應(yīng)用數(shù)學(xué)系,山西運(yùn)城044000)
前列腺癌是世界上最常見的、嚴(yán)重危害男性健康的惡性腫瘤之一。在歐美國家,其發(fā)病率占男性腫瘤第一位,病死率第二位;在我國,發(fā)病率也呈上升趨勢[1]。但是,由于癌癥的發(fā)病機(jī)理相當(dāng)復(fù)雜,目前對(duì)前列腺癌的發(fā)病機(jī)制還不很清楚。
很長一段時(shí)間里,人們致力于尋找單個(gè)致癌基因。后來發(fā)現(xiàn)癌癥是多基因調(diào)控綜合影響的結(jié)果,必須在基因組的總體水平上來研究癌癥。全基因關(guān)聯(lián)研究方法[2-4]、基因網(wǎng)絡(luò)研究方法[5-7]等相繼出現(xiàn)。
基因網(wǎng)絡(luò)是建立在分子生物學(xué)、數(shù)學(xué)和信息學(xué)等多學(xué)科交叉的基礎(chǔ)上,通過基因表達(dá)數(shù)據(jù),結(jié)合一定的分析和計(jì)算方法構(gòu)建合適的基因網(wǎng)絡(luò)的研究方法,是一種系統(tǒng)的、定量的研究方法,是從基因組的整體水平上研究癌癥的強(qiáng)有力的工具。目前,已有人用微分方程方法、布爾代數(shù)方法、模糊聚類方法的、偏最小二乘回歸方法建立和研究基因網(wǎng)絡(luò),但很少用互信息建立基因相關(guān)網(wǎng)絡(luò)。
關(guān)于前列腺癌的相關(guān)基因的研究,文獻(xiàn)[8-12]做了許多的研究,但很少有從基因網(wǎng)絡(luò)的角度來進(jìn)行研究。本文正是以互信息為相關(guān)關(guān)系的度量工具建立基因網(wǎng)絡(luò)來研究前列腺癌的關(guān)鍵基因。
本研究的數(shù)據(jù)來源于美國國立生物技術(shù)信息中心網(wǎng)站公布的數(shù)據(jù)集 GDS2545(網(wǎng)址:http://www.ncbi.nlm.nih.gov/sites/GDSbrowser)。樣本包含171例病例,分四部分,第一部分為正常前列腺組織樣本,第二部分為鄰近前列腺腫瘤的正常組織樣本,第三部分為原發(fā)性前列腺腫瘤組織樣本,第四部分為轉(zhuǎn)移性前列腺腫瘤組織樣本。
本文主要用第二部分(簡稱為正常組)和第三部分(簡稱為癌癥組)的數(shù)據(jù)。兩組數(shù)據(jù)大部分為相同病例的前列腺鄰近腫瘤的正常組織與腫瘤組織的表達(dá)數(shù)據(jù)。先將不配對(duì)的樣品去除,保留了58對(duì)數(shù)據(jù),數(shù)據(jù)格式為.CEL。
(1)利用配對(duì)數(shù)據(jù)的符號(hào)檢驗(yàn),比較得出正常組和癌癥組的差異表達(dá)基因。
(2)利用互信息作為相關(guān)關(guān)系的度量,建立基因相關(guān)網(wǎng)絡(luò)。
(3)利用研究復(fù)雜網(wǎng)絡(luò)的方法,從中篩選出前列腺癌發(fā)病關(guān)鍵基因[12-15]。
用Affymetrix公司的Expression Console(EC)軟件將其轉(zhuǎn)換為p值。轉(zhuǎn)換后的數(shù)據(jù)共12626行,刪除控制行后余12580行。
下載Affymetrix公司的平臺(tái)GPL8300的數(shù)據(jù),將探針與基因?qū)?yīng),其中有不同探針對(duì)應(yīng)相同基因的情形,對(duì)基因的p值行進(jìn)行平均;其中也有一個(gè)探針對(duì)應(yīng)多個(gè)基因的情形,說明探針不能很好地識(shí)別基因,將其刪除。整理后的數(shù)據(jù)如表1與表2。
表1 正常組的基因表達(dá)譜p值
表2 癌癥組的基因表達(dá)譜p值
對(duì)數(shù)據(jù)的分析,首先要識(shí)別在癌癥組和正常組有顯著表達(dá)差異的基因。常用的分析方法有三類:倍數(shù)分析、統(tǒng)計(jì)分析中的t檢驗(yàn)和方差分析。本文數(shù)據(jù)是配對(duì)數(shù)據(jù),采用配對(duì)數(shù)據(jù)的符號(hào)檢驗(yàn)來識(shí)別差異表達(dá)的基因。根據(jù)多重比較中的bonferroni校正原理,以 α =0.00005 為檢驗(yàn)水平[16-17],發(fā)現(xiàn) 63個(gè)差異表達(dá)基因。
基因與基因之間的相關(guān)關(guān)系可以用Pearson相關(guān)系數(shù)、Spearman相關(guān)系數(shù)來度量,但用互信息來度量相關(guān)性有前二者所不及之優(yōu)點(diǎn),因此采用互信息來度量基因與基因間相關(guān)性。
首先將63個(gè)基因的p值數(shù)據(jù)離散化,然后計(jì)算相互之間的互信息,得到互信息矩陣,其對(duì)角線上的第i個(gè)元素為第i個(gè)基因與第i個(gè)基因的聯(lián)合熵,即第i個(gè)基因的熵。由I(X,Y)為對(duì)稱陣,且I(X,Y)≤H(X),可將互信息矩陣中的上三角矩陣歸一化處理。歸一化時(shí),要去除熵為零的基因,余47個(gè)基因。歸一化后,對(duì)角線上的元素為1。
基因網(wǎng)絡(luò)的研究是生物學(xué)(主要是分子生物學(xué))、數(shù)學(xué)(主要是非線性數(shù)學(xué))和信息學(xué)(主要是程序算法的設(shè)計(jì)、信息的度量)三大學(xué)科的交叉點(diǎn)上,是生物信息學(xué)的熱點(diǎn)之一,也是后基因組研究的重要內(nèi)容。基因網(wǎng)絡(luò)的研究有助于探索生命現(xiàn)象的一些本質(zhì)問題,它為深入理解生命本質(zhì)提供了一個(gè)新的研究框架和平臺(tái)。
本文在建立基因網(wǎng)絡(luò)時(shí),考慮到互信息值大說明基因間相關(guān)關(guān)系較強(qiáng),反之,互信息值小說明基因間相關(guān)關(guān)系較弱,將歸一化后的互信息根據(jù)相關(guān)性的強(qiáng)弱分為兩類:以0.2為閾值,大于0.2為相關(guān)性強(qiáng),記為1,小于等于0.2為相關(guān)性弱,記為0。依此得到基因網(wǎng)絡(luò)的鄰接矩陣,也就是建立了基因相關(guān)網(wǎng)絡(luò)。正常組和癌癥組的基因網(wǎng)絡(luò)圖如圖1和2所示。
圖1 正常組的基因網(wǎng)絡(luò)
圖2 癌癥組基因網(wǎng)絡(luò)
由圖1和圖2可以看出,正常組和癌癥組的基因網(wǎng)絡(luò)結(jié)構(gòu)存在著較大的差別。而前列腺的關(guān)鍵基因應(yīng)該是在正常組和癌癥組兩個(gè)網(wǎng)絡(luò)中作用發(fā)生了較大變化的基因。建立兩個(gè)基因網(wǎng)絡(luò)的目的,就是通過比較兩個(gè)基因網(wǎng)絡(luò)的結(jié)構(gòu)差異來發(fā)現(xiàn)前列腺癌的關(guān)鍵基因。
對(duì)基因網(wǎng)絡(luò)結(jié)構(gòu)差異的分析,要用到復(fù)雜網(wǎng)絡(luò)的分析方法。度是復(fù)雜網(wǎng)絡(luò)中常用的一個(gè)指標(biāo)。一個(gè)基因在正常組的度與癌癥組的度差別越大,說明此基因在正常組和癌癥組的作用發(fā)生了較大變化,它在癌癥發(fā)病中的起著越重要的作用,是癌癥的關(guān)鍵基因。
提取了10個(gè)度差最大的基因,分別為SPOCK3、SLC4A3、GAS1、SEMA3B、EHD1、PKIG、FHL2、AHNAK2、NACC2、RBMS1。其度差見表3。
表3 10個(gè)度差最大的基因
表3中的基因應(yīng)該是在前列腺癌的發(fā)生或發(fā)展中起著關(guān)鍵作用的基因。已經(jīng)有研究證實(shí)GAS1基因與許多腫瘤的發(fā)生有關(guān)。查看這些基因的分子功能,發(fā)現(xiàn)其中有6個(gè)基因與粘合功能有關(guān),這也與已有的研究成果相一致。
研究結(jié)果表明,用互信息衡量相關(guān)關(guān)系的強(qiáng)弱來建立基因網(wǎng)絡(luò),查找正常組和癌癥組的基因網(wǎng)絡(luò)中度差較大的基因,確定前列腺癌的關(guān)鍵基因,是一種非常有效的方法。基因是否確實(shí)是致癌基因、抑癌基因還是其它基因,有待醫(yī)學(xué)專家的進(jìn)一步驗(yàn)證。
[1]孫潁浩.我國前列腺癌的研究現(xiàn)狀[J].中華泌尿外科雜志,2004(2).
[2]嚴(yán)衛(wèi)麗.復(fù)雜疾病全基因組關(guān)聯(lián)研究進(jìn)展——研究設(shè)計(jì)和遺傳[J].遺傳,2008(4).
[3]嚴(yán)衛(wèi)麗.復(fù)雜疾病全基因組關(guān)聯(lián)研究進(jìn)展——遺傳統(tǒng)計(jì)分析[J].遺傳,2008(5).
[4]涂欣,石立松,汪樊等.全基因組關(guān)聯(lián)分析的進(jìn)展與反思[J].生理科學(xué)進(jìn)展,2010(2).
[5]彭華正,潘建偉,朱睦元.基因網(wǎng)絡(luò)研究進(jìn)展[J].生物化學(xué)與生物物理進(jìn)展,2001(6).
[6]張國偉,邵世煌,齊金鵬等.基于信息度量的基因網(wǎng)絡(luò)建模[J].生物信息學(xué),2006(4).
[7]張相華.基因網(wǎng)絡(luò)分析的統(tǒng)計(jì)模型研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2011.
[8]周刊群,楊學(xué)貞,黃嘯,等.應(yīng)用基因微矩陣芯片篩選前列腺癌的相關(guān)基因[J].中華醫(yī)學(xué)外科雜志,2002(2).
[9]羅烈偉.前列腺癌基因表達(dá)譜芯片數(shù)據(jù)分析[D].廣州:南方醫(yī)科大學(xué),2008.
[10]莊振華,王年,李學(xué)俊,等.癌癥基因表達(dá)數(shù)據(jù)的熵度量分類方法[J].安徽大學(xué)學(xué)報(bào)(自然科學(xué)版),2010(2).
[11]朱建國,江福能,畢學(xué)成,等.細(xì)胞因子通路抑制因子3在前列腺癌中的表達(dá)及其意義[J].中華實(shí)驗(yàn)外科雜志,2012(6).
[12][美]ThomasM.Cove.信息論基礎(chǔ)[M].北京:機(jī)械工業(yè)出版社,2008.
[13][德]E.Klipp等,朱云平譯.系統(tǒng)生物學(xué)的理論、方法和應(yīng)用[M].上海:復(fù)旦大學(xué)出版社,2007.
[14][日]北野宏明著,劉筆峰等譯.系統(tǒng)生物學(xué)基礎(chǔ)[M].北京:化學(xué)工業(yè)出版社,2007
[15]汪小帆,李翔,陳關(guān)榮.復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用[M].北京:清華大學(xué)出版社,2006.
[16]馮變英,劉焱青,段淑紅,等.多重比較及其在銷售數(shù)據(jù)分析上的應(yīng)用[J].運(yùn)城學(xué)院學(xué)報(bào),2012(5).
[17]馮變英.關(guān)于均值向量的置換檢驗(yàn)的研究[D],上海:華東師范大學(xué),2009.