• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于互信息的顯著基因提取及轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)構(gòu)建

      2016-07-19 02:15:21牟曉陽
      計算機應(yīng)用與軟件 2016年6期
      關(guān)鍵詞:互信息患病調(diào)控

      孔 薇 支 星 牟曉陽

      1(上海海事大學(xué)信息工程學(xué)院 上海 201306)2(羅文大學(xué)生物化學(xué)系 新澤西 08028 美國)

      ?

      基于互信息的顯著基因提取及轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)構(gòu)建

      孔薇1支星1牟曉陽2

      1(上海海事大學(xué)信息工程學(xué)院上海 201306)2(羅文大學(xué)生物化學(xué)系新澤西 08028 美國)

      摘要傳統(tǒng)特征基因提取方法往往只注重單個基因在不同樣本中的表達差異,忽視了基因之間的關(guān)聯(lián)性以及多個致病基因作為一個基因模塊與復(fù)雜疾病的聯(lián)系。針對這種情況,提出基于互信息MI(Mutual Information)的特征基因提取算法,提取在健康對照和阿爾茨海默癥AD(Alzheimer’s disease)患病樣本中關(guān)聯(lián)度具有明顯差異變化的基因作為特征基因。在此基礎(chǔ)上,結(jié)合轉(zhuǎn)錄因子TF(Transcription factor)對靶基因TG(Target gene)調(diào)控的生物學(xué)先驗信息,利用網(wǎng)絡(luò)成分分析NCA(Network Component Analysis)算法分析轉(zhuǎn)錄因子的表達活性及其對靶基因的調(diào)控強度,構(gòu)建AD特征基因的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。分子生物學(xué)分析表明,它們在有絲分裂、細胞周期、免疫反應(yīng)以及炎癥反應(yīng)過程中的變化對AD的退化過程具有重要作用。

      關(guān)鍵詞阿爾茨海默癥(AD)互信息(MI)轉(zhuǎn)錄因子(TF)網(wǎng)絡(luò)成分分析(NCA)

      0引言

      阿爾茨海默癥[1]AD是以進行性認知障礙和記憶力損害為主的中樞神經(jīng)系統(tǒng)退行性病變。在過去的幾十年中,雖然已經(jīng)提出了多種假說和許多公認的AD易感基因,但是AD的遺傳學(xué)機制和發(fā)病機制仍不清楚。對于探尋基因表達水平,轉(zhuǎn)錄因子TF活性以及轉(zhuǎn)錄調(diào)控機制變化,表現(xiàn)出的轉(zhuǎn)錄因子和靶基因TG的協(xié)調(diào)動態(tài)響應(yīng),將對于研究AD的致病機理具有重大意義。

      近年來,隨著高通量技術(shù)的飛速發(fā)展,如DNA微陣列技術(shù)和統(tǒng)計學(xué)計算工具[2]使得生物信號大規(guī)模的測量,發(fā)現(xiàn)了AD有關(guān)的許多重要基因、共調(diào)控基因群以及轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。此外,為了克服微陣列技術(shù)的基本缺點,如小樣本、基因數(shù)量大、測量誤差以及信息不全。一些其他的高通量技術(shù),如蛋白質(zhì)相互作用數(shù)據(jù)PPI(protein-proteininteraction)、轉(zhuǎn)錄因子和microRNA信息數(shù)據(jù)也相繼被整合,使得對于AD致病機理的研究有了更加充分的信息數(shù)據(jù)量。傳統(tǒng)的基因網(wǎng)絡(luò)分析模型如獨立成分分析[3]ICA(independentcomponentanalysis)并不能運用一些轉(zhuǎn)錄調(diào)控信息,并且只是純粹的基于調(diào)控信號的數(shù)學(xué)和統(tǒng)計特性,因此它們并不能準確地構(gòu)建轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。網(wǎng)絡(luò)成分分析[4]NCA是一種用來確定轉(zhuǎn)錄因子對靶基因調(diào)控影響和其活性強度的方法,算法思想是通過預(yù)先輸入基因表達數(shù)據(jù)和先驗給定的轉(zhuǎn)錄因子和其靶基因的連接信息,將基因表達數(shù)據(jù)轉(zhuǎn)化成TF活性水平和轉(zhuǎn)錄因子對其靶基因的調(diào)控影響。NCA已被用于許多研究,例如,應(yīng)用于酵母細胞周期過程中,識別此前被忽視的振蕩活性模式[4]。

      傳統(tǒng)的差異基因提取方法,往往是基于單條基因在健康對照和患病樣本中的表達水平差異,表達差異的大小表明了該基因與疾病的相關(guān)性大小。但是卻忽視了基因之間的關(guān)聯(lián)性以及多個致病基因作為一個基因模塊與復(fù)雜疾病的相關(guān)性。張煥萍等人基于互信息(MI)和最大團(clique)相結(jié)合的方法,挖掘出有關(guān)結(jié)腸癌(Colon)的差異共表達致病基因模塊[5]。本文從基因之間的關(guān)聯(lián)性角度出發(fā),基于互信息方法,提取出在健康組樣本中關(guān)聯(lián)度低甚至沒有關(guān)聯(lián)性,而在患病樣本中關(guān)聯(lián)度高的基因,并將它們作為特征基因。該算法旨在通過計算任意兩條基因表達譜在兩類不同樣本中的互信息值,得出對應(yīng)的互信息矩陣,然后圍繞這兩個互信息矩陣去構(gòu)建一個圖的鄰接矩陣,最終通過這個鄰接矩陣挖掘出有關(guān)特征基因。該算法避免了傳統(tǒng)特征基因提取方法的單一性和片面性,從基因之間的關(guān)聯(lián)性出發(fā),使結(jié)果具有生物學(xué)意義。在此基礎(chǔ)上,考慮到基因表達數(shù)據(jù)無法體現(xiàn)基因調(diào)控轉(zhuǎn)錄信息,所以將以上特征基因表達數(shù)據(jù)和轉(zhuǎn)錄因子調(diào)控靶基因信息數(shù)據(jù)進行整合,運用到NCA中得出了轉(zhuǎn)錄因子的表達活性及其對靶基因的調(diào)控強度,最終本文構(gòu)建了在健康對照樣本和AD患病樣本中的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。分子生物學(xué)分析表明,TF活性的變化及其對TG的調(diào)控影響在AD的發(fā)病和惡化過程里起著重要作用,可通過這些成果為探索AD的發(fā)病機制增加新的思路和依據(jù)。

      1算法

      1.1基于互信息的特征基因提取

      對于復(fù)雜的基因關(guān)系,熵和互信息的方法能有效抓住基因與基因之間的關(guān)聯(lián)性,能有效提取出復(fù)雜疾病的致病基因[6]。在信息論中,熵是用來衡量一個隨機變量出現(xiàn)的期望值。設(shè)基因變量X=[x1,x2,…,xs]是一個基因表達模式,S代表基因表達數(shù)據(jù)中的樣本的數(shù)量,則該基因表達模式的熵就是該模式所包含的信息量的度量?;蜃兞縓的熵為:

      (1)

      聯(lián)合熵是指一對基因變量X和Y的不確定的度量,即:

      (2)

      對于兩個隨機變量X和Y,其互信息I(X,Y)就是其中一個變量能提供給另一個變量的信息量,即:

      (3)

      根據(jù)上述公式得出互信息最終公式為:

      I(X,Y)=H(X)+H(Y)-H(X,Y)

      (4)

      根據(jù)互信息值分析2個基因變量間的關(guān)聯(lián)性,若互信息值較大,表明2個基因變量之間相關(guān)性較大,可認為這2條基因在生物學(xué)上存在著較強的關(guān)聯(lián)性;反之,若互信息值為0或者較小,則表明這兩條基因變量不相互包含任何信息,即在生物學(xué)上不存在關(guān)聯(lián)性。對于基因變量間的互信息計算,本文借助直方圖的思想[7],首先將基因表達數(shù)據(jù)全部離散化,分別求出基因的熵和基因之間的聯(lián)合熵,再根據(jù)式(4)就能得出基因變量間的互信息。

      說起幫襯二字,那當(dāng)然是寶玉爹首先幫了寶剛爹的。沒有寶玉爹的李代桃僵,就不會有寶剛爹一輩子的美滿婚姻。真的,盡管在鄉(xiāng)黨們的眼里,寶剛爹是個怕老婆的標兵,在香娭毑面前,從沒挺起胸抬起頭做過人,可俗話說得好,鞋合不合腳,只有自己知道,寶剛爹對香娭毑,是打自心眼里敬畏和滿意的。唯獨不滿意的一次,就是那次賽詩會,也就是香娭毑朗誦了愛毛主席的詩遭到寶剛爹的當(dāng)場嗆白之后,香娭毑賭氣回南縣老家侄兒那里住了好些日子,還是寶剛爹親自去接才回到白家灣來。至于二狗伢說香娭毑與寶玉爹有那么一腿之事,鄉(xiāng)黨們似乎抱的是一種無所謂的態(tài)度,真也罷,假也罷,都有可能,都有道理,在鄉(xiāng)下,是沒有誰去認真追究的。

      對于基因表達數(shù)據(jù)的微陣列矩陣E=(eij)N×S,其中N和S分別表示的基因的數(shù)量和數(shù)據(jù)樣本數(shù),eij代表的是第i條基因在第j個樣本下的表達水平值。對于只包含兩類狀態(tài)的樣本,可將E分為Econtrol和Eaffected兩部分,即健康組和患病組樣本下的基因表達數(shù)據(jù)。通過計算Econtrol和Eaffected中的每對基因間的互信息,最終分別得到形狀為N×N的互信息矩陣Icontrol和Iaffected?;诨バ畔⒌男再|(zhì),本文認為在健康組樣本里和其它基因相關(guān)性較小,即互信息值較小的基因稱為與其他基因失聯(lián),而在患病樣本下該基因又與其他基因產(chǎn)生較大的相關(guān)性,即互信息值較高稱之為與其他基因密切關(guān)聯(lián),則可以認為此類基因在疾病產(chǎn)生過程中從失聯(lián)狀態(tài)變化為表達異常且發(fā)揮著關(guān)聯(lián)作用勢必對疾病的產(chǎn)生具有重要作用,因此將此類基因作為特征基因。另外在疾病產(chǎn)生過程中,有些基因和其他基因的關(guān)系是從關(guān)聯(lián)狀態(tài)變化到失聯(lián)狀態(tài),也將這些基因作為是特征基因,本文只考慮前者。提取此類特征基因的具體方法為:選擇2個閾值Tcontrol和Taffected(Tcontrol>Taffected),并對Icontrol和Iaffected進行如下算法操作:

      ifi==j,thenIcontrol(i,j)=0else ifIcontrol(i,j)≥Tcontrol,thenIcontrol(i,j)=1elseIcontrol(i,j)=0

      (5)

      ifi==j,thenIaffected(i,j)=0else ifIaffected(i,j)≤Taffected,thenIaffected(i,j)=1elseIaffected(i,j)=0

      (6)

      I(i,j)=Icontrol(i,j)&Iaffected(i,j)

      (7)

      式(5)和式(6)的目的是將互信息矩陣Icontrol和Iaffected進行二值化運算。為了剔除基因的自相關(guān)干擾,可以發(fā)現(xiàn)兩式首先都對矩陣中的對角線元素進行了歸0。為了更好地看出兩類樣本中基因之間的關(guān)聯(lián)性變化,利用式(7)對兩類互信息矩陣進行元素之間的邏輯“與”運算構(gòu)建出了矩陣I,借助這個矩陣去挖掘特征基因。為了更形象化的分析,將矩陣I類比為圖的鄰接矩陣,顯然每條基因就對應(yīng)于圖的一個頂點。若元素I(i,j)=1,即Icontrol(i,j)=1且Iaffected(i,j)=1也就是Icontrol(i,j)≥Tcontrol且Iaffected(i,j)≤Taffected,表明第i條基因和第j基因在健康對照樣本中關(guān)聯(lián)性較大,而在患病樣本中關(guān)聯(lián)性較小,即認為在圖中表示這兩點有線段連接。反之,若元素I(i,j)=0,則認為在圖中表示這兩點無線段連接,互相孤立。本文為了提取出在健康組樣本中和其他基因關(guān)聯(lián)度較小,而在患病樣本中關(guān)聯(lián)度較大的基因作為特征基因,很顯然是挑出圖中的這些孤立點。因為這些孤立點即基因,絕大部分是屬于先在健康組樣本中和其他基因關(guān)聯(lián)度低甚至失聯(lián),而在患病樣本關(guān)聯(lián)度高的基因。通過對這些基因的研究,對探尋AD致病基因、信號傳導(dǎo)通路及其轉(zhuǎn)錄調(diào)控過程具有重要意義。

      1.2網(wǎng)絡(luò)成分分析算法原理

      由于提取的特征基因表達數(shù)據(jù)無法體現(xiàn)出基因調(diào)控轉(zhuǎn)錄信息,本文結(jié)合轉(zhuǎn)錄因子對靶基因調(diào)控的生物學(xué)先驗知識,基于網(wǎng)絡(luò)成分分析算法,構(gòu)建基因轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。網(wǎng)絡(luò)成分分析NCA是一種用來分析轉(zhuǎn)錄網(wǎng)絡(luò)基因表達數(shù)據(jù)的算法,算法實質(zhì)是根據(jù)基因表達數(shù)據(jù)和轉(zhuǎn)錄因子-靶基因調(diào)控關(guān)系的連通性網(wǎng)絡(luò),推導(dǎo)出轉(zhuǎn)錄因子活性TFAs(transcriptionfactoractivities)和轉(zhuǎn)錄因子對其靶基因的調(diào)控強度CS(controlstrengths)。轉(zhuǎn)錄調(diào)控模型如下:

      (8)

      式中Ei(t)代表基因表達水平,TFAi(t)(j=1,2,…,L)表示的是轉(zhuǎn)錄因子活性,CSij表示的是轉(zhuǎn)錄因子j對基因i的調(diào)控強度,(t)和(0)分別表示的是指定條件t和參考條件0。將對數(shù)-線性變換作為標準化方法來近似此非線性系統(tǒng),通過對數(shù)轉(zhuǎn)換后,式(8)的矩陣形式表示為:

      [E]=[C][P]+Γ

      (9)

      式中矩陣[E](N×M)代表N個基因在M個樣本下的基因表達矩陣,矩陣[C](N×L)表示的是轉(zhuǎn)錄因子對靶基因的調(diào)控強度矩陣以及矩陣[P](L×M)表示的是L個轉(zhuǎn)錄因子在M個樣本下的表達活性矩陣,N表示基因數(shù)量,M表示實驗樣本個數(shù)以及L表示的是轉(zhuǎn)錄因子個數(shù),此外Γ該模型的殘差矩陣。若基因i不被轉(zhuǎn)錄因子j所調(diào)控,那么就將調(diào)控矩陣[C]中的元素Cij初始值設(shè)置為零;反之,則將元素Cij初始值設(shè)置為非零值。

      由于基因表達矩陣[E]分解成因子矩陣并不具有唯一性,文獻[4]已證明,若矩陣[C]和[P]滿足唯一性條件,NCA算法能確保得到唯一解,來達到對任何給定的殘差矩陣Γ的比例因子。此條件很明確地將NCA結(jié)果銜接到生物系統(tǒng)上,使解釋簡單明了。為了找出式(9)的最優(yōu)解,最小二乘法約束被運用:

      min‖[E]-[C][P]‖2s.tC∈Z0

      (10)

      式中矩陣Z0是連接模式矩陣,[C]和[P]的實際估計是通過兩步交替最小二乘算法實現(xiàn),該算法利用的是線性分解的雙凸性。最小二乘約束法等價于具有獨立同分布成分的高斯噪聲存在下的最大似然方法。對于NCA算法,詳見文獻[4]。

      2仿真結(jié)果與分析

      2.1基于互信息算法的特征提取結(jié)果分析

      本文選用的實驗數(shù)據(jù)是來自美國國立生物技術(shù)信息中心NCBI(nationalcenterforbiotechnologyinformation)網(wǎng)站的基因表達綜合數(shù)據(jù)庫GEO(geneexpressionomnibus,http://www.ncbi.nlm.nih.gov/gds/)中的數(shù)據(jù)集GSE5281。該AD數(shù)據(jù)集是由LiangWS等人提供的,包含了161組不同大腦皮層組織樣本的基因表達數(shù)據(jù)[8],本文選用的是海馬區(qū)HIP(Hippocampus)基因表達數(shù)據(jù),它擁有13個健康對照樣本和10個患病樣本及每組樣本包括54 675個基因探針所對應(yīng)基因表達數(shù)據(jù)。

      對于數(shù)據(jù)的預(yù)處理,本文首先將數(shù)據(jù)進行歸一化,目的是將所有基因表達數(shù)據(jù)值都映射到[-1,1]區(qū)間中,然后通過公式(1)計算每條基因的信息熵,挑出信息熵值大的基因。將信息熵應(yīng)用于基因表達數(shù)據(jù),如某基因信息熵越大,表明該基因在樣本中含有的信息量越大,分類貢獻率也就越大;反之,信息熵越小,該基因信息量越小,分類貢獻率越低。最終通過計算,選擇了5000條基因。分別計算這5000條基因在健康對照樣本和患病樣本中的互信息值,得到了兩個互信息矩陣,既Icontrol和Iaffected。對于閾值Tcontrol和Taffected的選取是本文基于互信息方法提取特征基因的關(guān)鍵。若Tcontrol值選取過大同時Taffected值選取過小,會造成得到的特征基因數(shù)量過多;若Tcontrol值選取過小同時Taffected值選取過大,會造成得到的特征基因數(shù)量過少,甚至提取不到AD易感基因。這些問題都將直接影響本文后面基于NCA算法調(diào)控網(wǎng)絡(luò)的構(gòu)建。對得到的這兩個互信息矩陣進行式(5)-式(7)處理,經(jīng)過多次驗證,最終設(shè)定Tcontrol=2.3,Taffected=1.7得到實對稱矩陣I,通過對該鄰接矩陣的每行或每列進行求和運算。和值越大,表明這條基因在健康組樣本中和許多基因關(guān)聯(lián),反之和值為0的基因,則說明它們在健康組樣本中并不和其它基因關(guān)聯(lián),且它們絕大部分是在患病樣本中和許多基因關(guān)聯(lián)的。通過剔除和值非0的點,本文挖掘出了493個基因作為特征基因。這些基因中絕大部分是在健康對照樣本里與其它基因失聯(lián),而在AD患病樣本中卻和其他基因強關(guān)聯(lián)。

      2.2NCA結(jié)果分析

      通過NCA算法推斷轉(zhuǎn)錄因子的活性和轉(zhuǎn)錄因子對靶基因的調(diào)控強度,目的是為了挖掘出在健康對照和AD患病樣本中的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。本文選用網(wǎng)站BIOBASE(http://www.gene-regulation.com)中的TRANSFAC公共數(shù)據(jù)庫,該數(shù)據(jù)庫擁有許多現(xiàn)有的轉(zhuǎn)錄因子調(diào)控靶基因的信息。為了找尋AD有關(guān)的關(guān)鍵轉(zhuǎn)錄因子,本文將前面互信息提取方法所得到的重要特征基因和該TF-TG調(diào)控關(guān)系數(shù)據(jù)庫進行匹配,選擇了調(diào)控特征基因數(shù)量最多的前17個轉(zhuǎn)錄因子。表1給出了這17個轉(zhuǎn)錄因子及其所對應(yīng)調(diào)控的靶基因。對健康對照和AD患病樣本數(shù)據(jù),分別運行NCA之前,需要建立兩個輸入:一個是矩陣[E],它表示的是原始AD基因表達數(shù)據(jù)所提供的在健康對照或患病樣本中的靶基因基因表達譜;另一個是預(yù)定義的初始連接矩陣[C0],它表示的是轉(zhuǎn)錄因子對靶基因的調(diào)控關(guān)系,若TF調(diào)控TG,則令其對應(yīng)的連接矩陣[C0]中的元素值為1,反之值為0。通過NCA算法,最終篩選出了17個轉(zhuǎn)錄因子和46個靶基因,并且由此得出了轉(zhuǎn)錄因子分別在健康組樣本和患病樣本下的表達活性和其對靶基因的調(diào)控強度。

      基因的轉(zhuǎn)錄是通過一小部分轉(zhuǎn)錄因子控制的,通過翻譯后修飾或配體結(jié)合過程,它們的表達活性對于基因的表達水平來說是決定性的因素。一般而言,轉(zhuǎn)錄因子活性水平(TFAs)并不總是和它們的基因表達譜TFEV(geneexpressionvaluesofTF)呈現(xiàn)出正相關(guān)。圖1給出了所有轉(zhuǎn)錄因子的表達活性和它們在AD原始微陣列數(shù)據(jù)中的基因表達譜的變化對比,其中端點帶有圓形標注的線段表示的是轉(zhuǎn)錄因子在不同樣本中的表達活性變化;而帶有上三角形標注的線段表示的是轉(zhuǎn)錄因子在不同樣本中的基因表達水平變化。另外圖1,X軸中點“1”對應(yīng)健康對照樣本,點“2”對應(yīng)患病樣本及Y軸對應(yīng)轉(zhuǎn)錄因子活性或基因表達水平值。圖1每個子圖都顯示了轉(zhuǎn)錄因子在不同病程樣本里的活性和基因表達強度,可以明顯發(fā)現(xiàn)從健康樣本到患病樣本過程中,表達活性明顯下降的轉(zhuǎn)錄因子有:ANAPC5,BUB3,DRAP1,MCM4,NAT13,THOC4,ZNF317;表達活性明顯上升的轉(zhuǎn)錄因子有:G3BP1,HNRPD,MRPL44,MRPS12,NLRP1,RFC5,ZBTB20。另外從轉(zhuǎn)錄因子的活性和基因表達強度的相關(guān)性分析,呈現(xiàn)正相關(guān)性的有:ANAPC5,BUB3,DRAP1,G3BP1,MCM4,MRPL44,MRPS12,NAT13,NLRP1,ZNF317,THOC4,ZBTB20;呈現(xiàn)負相關(guān)性的有:HNRPD,RFC5。

      表1 選取的轉(zhuǎn)錄因子與其對應(yīng)的靶基因

      續(xù)表1

      2.3AD動態(tài)調(diào)控網(wǎng)絡(luò)分析

      基于NCA算法所得到的轉(zhuǎn)錄因子活性矩陣[P],調(diào)控矩陣[C]以及原始微陣列靶基因表達數(shù)據(jù),本文構(gòu)建了在健康對照樣本和AD患病樣本下的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖,如圖2和圖3所示。為了更加形象地看出所有轉(zhuǎn)錄因子及靶基因的動態(tài)變化趨勢,對構(gòu)建調(diào)控網(wǎng)絡(luò)所用到的數(shù)據(jù)首先都進行了歸一化,其中靶基因的表達值由矩陣[E]中基因在對應(yīng)樣本中取均值所得,轉(zhuǎn)錄因子的表達活性由矩陣[P]中轉(zhuǎn)錄因子在對應(yīng)樣本中取均值所得,而轉(zhuǎn)錄因子對靶基因的正負調(diào)控作用由矩陣[C]中轉(zhuǎn)錄因子對靶基因的調(diào)控值的正負來定性表示。圖2和圖3中圓形節(jié)點表示轉(zhuǎn)錄因子,方形節(jié)點表示靶基因,三角形節(jié)點表示AD易感基因;節(jié)點顏色越深表示其表達水平越高或越低;連線則表示轉(zhuǎn)錄因子對靶基因有正負調(diào)控作用。

      圖2 健康對照樣本轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖

      圖3 AD患病樣本轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖

      從構(gòu)建的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖以及表1可見,多個轉(zhuǎn)錄因子可以共同調(diào)控一個靶基因,多個靶基因也可以被一個轉(zhuǎn)錄因子共同調(diào)控,即靶基因的表達受到一個或多個轉(zhuǎn)錄因子的表達活性的綜合影響。如圖中轉(zhuǎn)錄因子DRAP1,G3BP1,MRPL44,NAT13,RNGTT共同調(diào)控靶基因IDE,與健康組樣本對照,可以看出IDE的表達水平下降(顏色從深色到淺色),而轉(zhuǎn)錄因子G3BP1在患病樣本中被極大的激活(顏色深度加重),其中IDE是目前已知的AD易感基因[9],G3BP1對肺癌和乳腺癌擴散具有中介效應(yīng)[10,11],并且文獻[11]指出RAS-GAPSH3結(jié)構(gòu)域結(jié)合蛋白(G3BP)是基因USP10的調(diào)制器,巧合的是網(wǎng)絡(luò)中G3BP1調(diào)控的多個靶基因中就包括基因USP10,與健康組樣本對照,可以看出USP10的表達水平升高。從中可以推斷,G3BP1與AD的發(fā)生密切相關(guān)。轉(zhuǎn)錄調(diào)控圖中如靶基因TFAM被轉(zhuǎn)錄因子THOC4,BUB3,MCM4,RNGTT共同調(diào)控,與健康組樣本對照,可以看出TFAM的表達水平升高(顏色從深色到淺色),BUB3在AD患病樣本中活性明顯降低;其中線粒體轉(zhuǎn)錄因子(TFAM)多態(tài)性與AD有關(guān)[12],BUB3是構(gòu)成有絲分裂紡錘體配置復(fù)合物的關(guān)鍵組成部分,能生成其他重要蛋白復(fù)合物[13]。在健康對照和AD患病網(wǎng)絡(luò)圖中特定的轉(zhuǎn)錄因子對于同一個靶基因的調(diào)控影響作用不一定相同,如轉(zhuǎn)錄因子NLRP1對于靶基因GPR12的調(diào)控一直都是促進作用;然而轉(zhuǎn)錄因子ANAPC5對于靶基因ACTR2的調(diào)控作用,在健康組樣本中對其是抑制的,而在患病樣本中對其表達起促進作用。其中基因GPR12涉及到細胞增殖和存活的調(diào)控[14],ACTR2又名ARP2,文獻[15]指出ARP2/3的丟失會導(dǎo)致趨化信號傳導(dǎo)中的NF-κB依賴性,是非自治的影響。炎性體(Inflammasomes)是專門的信令平臺,對于先天免疫和炎癥反應(yīng)的調(diào)節(jié)至關(guān)重要,各種NLR家族成員(如NLRP1,NLRP3和IPAF等)以及PYHIN家族成員AIM2可形成炎性體復(fù)合物。ChoiAJ等人發(fā)現(xiàn)了激活NLRP3炎性信號通路的調(diào)控機制,并討論了在代謝和認知性疾病,包括肥胖癥、2型糖尿病、阿爾茨海默癥(AD)和抑郁癥中NLRP3的潛在作用[16]。對于轉(zhuǎn)錄因子ANAPC5,與健康組樣本對照發(fā)現(xiàn),其在患病樣本中活性被抑制,它是APC的一個亞基,并且APC對于細胞在分裂后期退出有絲分裂過程以及防止其過早進入DNA合成期(S期)有著重要作用[17]。通過在線基因分析網(wǎng)站DAVID(http://david.abcc.ncifcrf.gov/)對涉及到的所有靶基因和轉(zhuǎn)錄因子進行定性分析,該網(wǎng)站包括許多基因分析數(shù)據(jù)庫,如常見的KEGG[18](KyotoEncyclopediaofGenesandGenomes)和GO[19](geneontology)數(shù)據(jù)庫。針對KEGG通路發(fā)現(xiàn),ANAPC5不僅和BUB3,MCM4,E2F3形成了細胞周期通路,也和其它基因參與了泛素介導(dǎo)的蛋白水解過程通路,這也進一步證明了ANAPC5對于AD的發(fā)病機理可能起著重要作用。

      此外,對于轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)的定性分析,也發(fā)現(xiàn)了許多與常見癌癥密切相關(guān)的靶基因和轉(zhuǎn)錄因子。如轉(zhuǎn)錄因子HNRPD又名AUF1,它的表達與肝癌的惡化過程有著密切關(guān)系、對于在淋巴結(jié)陽性乳腺癌患者中EIF4E的高表達可能是全身擴散的標志和抑制素(PHB)表現(xiàn)為細胞增殖的負調(diào)節(jié)劑以及是一種腫瘤抑制劑以及SIRT3是作為乳腺癌腫瘤抑制蛋白等。針對以上這些分析結(jié)果可知,AD與癌癥或者其它疾病之間其實并不是彼此孤立的,它們的致病機理可能是有內(nèi)在聯(lián)系的。本文通過對AD調(diào)控網(wǎng)絡(luò)的全面生物學(xué)分析,發(fā)現(xiàn)了一些AD致病原因,其中發(fā)現(xiàn)它們中有一些都與有絲分裂、細胞生長、免疫反應(yīng)和炎癥反應(yīng)有著密切關(guān)系。在以后的研究里,將集中圍繞與AD有關(guān)的有絲分裂、細胞生長、免疫反應(yīng)和炎癥反應(yīng)過程,為的是去發(fā)現(xiàn)真正的AD致病機理。

      3結(jié)語

      微陣列高通量技術(shù)的運用,使得所有mRNA轉(zhuǎn)錄產(chǎn)物可以同時測量,從而讓構(gòu)建基因調(diào)控網(wǎng)絡(luò)成為可能。傳統(tǒng)的基因網(wǎng)絡(luò)分析模型如ICA并不能運用轉(zhuǎn)錄調(diào)控信息,并且只是純粹的基于調(diào)控信號的數(shù)學(xué)和統(tǒng)計特性,因此它們并不能準確地構(gòu)建調(diào)控網(wǎng)絡(luò)。本文從基因之間的關(guān)聯(lián)性出發(fā),首先利用互信息(MI)提取特征基因,探尋AD發(fā)病過程中明顯發(fā)生關(guān)聯(lián)作用的基因組;然后將所得的特征基因與轉(zhuǎn)錄調(diào)控信息進行融合挖掘出AD關(guān)鍵轉(zhuǎn)錄因子;最后通過NCA算法推斷出轉(zhuǎn)錄因子在不同樣本下的活性和其對靶基因的調(diào)控強度,并成功構(gòu)建出轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。通過對AD調(diào)控網(wǎng)絡(luò)的分子生物學(xué)分析,發(fā)現(xiàn)了與AD密切相關(guān)的基因IDE和TFAM;與細胞周期有關(guān)的基因ANAPC5,BUB3 等;與炎癥反應(yīng)有關(guān)的基因NLRP1等。這些基因以及生物過程都與AD的致病機理有著緊密的聯(lián)系。另外,通過AD調(diào)控網(wǎng)絡(luò)分析,本文也發(fā)現(xiàn)了許多與癌癥有關(guān)的基因。這些發(fā)現(xiàn)可能有助于為AD致病機理的研究提供新的依據(jù)和方法。

      參考文獻

      [1]BrookmeyerR,JohnsonE,Ziegler-GrahamK,etal.ForecastingtheglobalburdenofAlzheimer’sdisease[J].Alzheimer’s&dementia,2007,3(3):186-191.

      [2]KaissiO,NimpayeE,SinghTR,etal.GenesSelectionComparativeStudyinMicroarrayDataAnalysis[J].Bioinformation,2013,9(20):1019.

      [3]Hyv?rinenA,OjaE.Independentcomponentanalysis:algorithmsandapplications[J].Neuralnetworks,2000,13(4):411-430.

      [4]LiaoJC,BoscoloR,YangYL,etal.Networkcomponentanalysis:reconstructionofregulatorysignalsinbiologicalsystems[J].ProceedingsoftheNationalAcademyofSciences,2003,100(26):15522-15527.

      [5] 張煥萍,王惠南,盧光明,等.基于互信息的差異共表達致病基因挖掘方法[J].東南大學(xué)學(xué)報:自然科學(xué)版,2009,39(1):151-155.

      [6] 孫嘯,陸祖宏,謝建明.生物信息學(xué)基礎(chǔ)[M].清華大學(xué)出版社有限公司,2005.

      [7]SteuerR,KurthsJ,DaubCO,etal.Themutualinformation:detectingandevaluatingdependenciesbetweenvariables[J].Bioinformatics,2002,18(suppl2):S231-S240.

      [8]LiangWS,ReimanEM,VallaJ,etal.Alzheimer’sdiseaseisassociatedwithreducedexpressionofenergymetabolismgenesinposteriorcingulateneurons[J].ProceedingsoftheNationalAcademyofSciences,2008,105(11):4441-4446.

      [9]CuiPJ,CaoL,WangY,etal.Theassociationbetweentwosinglenucleotidepolymorphismswithintheinsulin-degradingenzymegeneandAlzheimer’sdiseaseinaChineseHanpopulation[J].JournalofClinicalNeuroscience,2012,19(5):745-749.

      [10]WinslowS,LeanderssonK,LarssonC.RegulationofPMP22mRNAbyG3BP1affectscellproliferationinbreastcancercells[J].Molecularcancer,2013,12(1):156.

      [11]SonciniC,BerdoI,DraettaG.Ras-GAPSH3domainbindingprotein(G3BP)isamodulatorofUSP10,anovelhumanubiquitinspecificprotease[J].Oncogene,2001,20(29):3869-3879.

      [12]ZhangQ,YuJT,WangP,etal.MitochondrialtranscriptionfactorA(TFAM)polymorphismsandriskoflate-onsetAlzheimer’sdiseaseinHanChinese[J].Brainresearch,2011,1368:355-360.

      [13]KumarA,RajendranV,SethumadhavanR,etal.CEPproteins:theknightsofcentrosomedynasty[J].Protoplasma,2013,250(5):965-983.

      [14]LuX,ZhangN,MengB,etal.InvolvementofGPR12intheregulationofcellproliferationandsurvival[J].Molecularandcellularbiochemistry,2012,366(1-2):101-110.

      [15]WuC,HaynesEM,AsokanSB,etal.LossofArp2/3inducesanNF-κB-dependent,nonautonomouseffectonchemotacticsignaling[J].TheJournalofcellbiology,2013,203(6):907-916.

      [16]ChoiJS,RyterSW.Inflammasomes:MolecularRegulationandImplicationsforMetabolicandCognitiveDiseases[J].Moleculesandcells,2014,37(6):441-448.

      [17]LatchmanDS.Transcriptionfactors:anoverview[J].Internationaljournalofexperimentalpathology,1993,74(5):417.

      [18]KanehisaM,GotoS,KawashimaS,etal.TheKEGGresourcefordecipheringthegenome[J].Nucleicacidsresearch,2004,32(suppl1):D277-D280.

      [19]YangAC,HsuHH,LuMD.Applyinggeneontologytomicroarraygeneexpressiondataanalysis[C]//SystemScienceandEngineering(ICSSE),2010InternationalConferenceon.IEEE,2010:421-426.

      SIGNIFICANT GENES EXTRACTION BASED ON MUTUAL INFORMATION ANDTRANSCRIPTIONALREGULATORYNETWORKRECONSTRUCTION

      Kong Wei1Zhi Xing1Mou Xiaoyang2

      1(Information Engineering College,Shanghai Maritime University,Shanghai 201306,China)2(Department of Chemistry and Biochemistry,Rowan University,NJ 08028,USA)

      AbstractTraditional feature genes extraction methods tend to focus only on the expression difference of a single gene in different samples, but ignore the correlation among genes as well as the links between multiple pathogenic genes as one gene module and complex diseases. In view of this, we proposed a mutual information-based feature genes extraction algorithm, it is used to extract those genes that have the most significant differences and changes in correlation between the healthy controls and Alzheimer’s disease (AD) samples. On this basis, in combination with the biological priori information about the regulatory of transcription factors (TF) on target gene (TG), we applied network component analysis algorithm (NCA) in analysing TF’s expression activities and their regulatory strengths on TGs, and constructed the transcriptional regulatory networks of AD feature genes. Molecular biology analysis showed that the changes of them in mitosis, cell cycle, immune response and inflammation play an important role in deterioration of AD.

      KeywordsAlzheimer’s disease (AD)Mutual information (MI)Transcription factor (TF)Network component analysis (NCA)

      收稿日期:2014-12-31。國家自然科學(xué)基金項目(61271446)??邹保淌?,主研領(lǐng)域:生物信息處理,模式識別。支星,碩士生。牟曉陽,教授。

      中圖分類號TP391.9Q343.1

      文獻標識碼A

      DOI:10.3969/j.issn.1000-386x.2016.06.057

      猜你喜歡
      互信息患病調(diào)控
      為照顧患病家父請事假有何不可?
      上海工運(2020年8期)2020-12-14 03:11:56
      野生動物與人獸共患病
      科學(xué)(2020年3期)2020-11-26 08:18:20
      如何調(diào)控困意
      經(jīng)濟穩(wěn)中有進 調(diào)控托而不舉
      中國外匯(2019年15期)2019-10-14 01:00:34
      順勢而導(dǎo) 靈活調(diào)控
      “glifo”幫助患病兒童圓提筆之夢
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      聯(lián)合互信息水下目標特征選擇算法
      SUMO修飾在細胞凋亡中的調(diào)控作用
      改進的互信息最小化非線性盲源分離算法
      電測與儀表(2015年9期)2015-04-09 11:59:22
      岫岩| 惠东县| 广汉市| 贵州省| 会东县| 德令哈市| 兰州市| 侯马市| 突泉县| 荔浦县| 金门县| 当雄县| 铁岭市| 乳山市| 四会市| 溧阳市| 玉溪市| 抚州市| 昂仁县| 灵寿县| 枝江市| 顺义区| 呼图壁县| 灌阳县| 沁水县| 南宁市| 保山市| 溆浦县| 永州市| 沐川县| 海林市| 大方县| 平谷区| 广安市| 舞钢市| 榕江县| 册亨县| 海晏县| 隆尧县| 准格尔旗| 托克逊县|