• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于互信息研究的乳腺癌與阿爾茨海默癥的免疫系統(tǒng)發(fā)病機(jī)理探尋

      2016-02-16 06:23:55牟曉陽
      關(guān)鍵詞:互信息患病調(diào)控

      劉 芳 孔 薇* 牟曉陽

      1(上海海事大學(xué)信息工程學(xué)院,上海 201306)2(美國(guó)羅文大學(xué)生物化學(xué)系,美國(guó) 新澤西 08028)

      基于互信息研究的乳腺癌與阿爾茨海默癥的免疫系統(tǒng)發(fā)病機(jī)理探尋

      劉 芳1孔 薇1*牟曉陽2

      1(上海海事大學(xué)信息工程學(xué)院,上海 201306)2(美國(guó)羅文大學(xué)生物化學(xué)系,美國(guó) 新澤西 08028)

      近年來,越來越多的流行病學(xué)研究顯示多種癌癥與阿爾茨海默癥(AD)呈現(xiàn)負(fù)相關(guān),但分子生物學(xué)機(jī)制尚不明確。從基因信號(hào)傳導(dǎo)及調(diào)控網(wǎng)絡(luò)構(gòu)建方面研究這種負(fù)相關(guān),將對(duì)兩種疾病致病機(jī)理的探尋起重要作用。選取乳腺癌(BC)與AD進(jìn)行對(duì)比研究??紤]到傳統(tǒng)特征基因提取方法注重單個(gè)基因在不同樣本中的表達(dá)差異而忽視基因之間的關(guān)聯(lián)性,從基因之間的關(guān)聯(lián)性出發(fā),利用互信息(MI)首先提取兩種疾病中共有的差異表達(dá)基因作為特征基因。在此基礎(chǔ)上,鑒于網(wǎng)絡(luò)成分分析(NCA)約束條件較強(qiáng)、運(yùn)行時(shí)間過長(zhǎng)等局限性,采用快速網(wǎng)絡(luò)成分分析算法(FastNCA),推演出特征基因中轉(zhuǎn)錄因子的表達(dá)活性及其對(duì)靶基因的調(diào)控強(qiáng)度,并分別構(gòu)建兩種疾病的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,轉(zhuǎn)錄因子POLR2E、RFC5、THOC4、FBXO22、KPNA1、MYST3、PTBP1等在兩種疾病中表達(dá)活性及調(diào)控作用相反,如轉(zhuǎn)錄因子RFC5的表達(dá)活性從健康到BC患病過程中由0.269降低至0.077,而從健康到AD患病過程中則由-0.430升高至0.307。通過分子生物學(xué)分析可知,它們所影響的調(diào)控關(guān)系及生物過程對(duì)BC及AD的致病起著關(guān)鍵作用,對(duì)兩種疾病之間呈現(xiàn)負(fù)相關(guān)性機(jī)制的探尋具有重要意義。

      乳腺癌;阿爾茨海默癥;互信息;快速網(wǎng)絡(luò)成分分析;機(jī)體免疫

      引言

      近年來,越來越多的流行病學(xué)統(tǒng)計(jì)顯示癌癥與老年癡呆癥特別是阿爾茨海默癥(Alzheimer′s disease, AD)之間呈現(xiàn)負(fù)相關(guān)即癌癥患者患AD的可能性較其他人大幅降低,反之亦然[1]。為了更清楚地了解癌癥和AD之間負(fù)相關(guān)關(guān)系,很多學(xué)者就癌癥和AD分別利用基因表達(dá)數(shù)據(jù)等進(jìn)行了多方面的研究,研究結(jié)果顯示,與癌癥和AD相關(guān)的基因、通路等或許共同參與了一些與細(xì)胞增殖和凋亡有關(guān)的基本的生物學(xué)過程,但在兩類疾病中卻起著相反的作用[2]。已證實(shí)的Pin1通過擴(kuò)大致癌基因信號(hào)通路促進(jìn)惡性腫瘤的發(fā)生,Pin1表達(dá)降低會(huì)有損tau蛋白功能及淀粉樣前體蛋白加工最終導(dǎo)致神經(jīng)元纖維纏結(jié)及神經(jīng)元退變從而促進(jìn)AD的發(fā)生[2]。Wnt信號(hào)通路上調(diào)會(huì)阻止神經(jīng)元退化,保證其活性更容易形成癌癥,相反,抑制Wnt通路能使神經(jīng)元死亡或消失促使AD的發(fā)生,在Wnt通路中關(guān)鍵分子的表現(xiàn)、基因組的多態(tài)性和擾動(dòng)性決定其發(fā)展為癌癥或是AD[2]。然而目前對(duì)于兩種疾病在免疫過程中為什么會(huì)呈現(xiàn)負(fù)相關(guān)及其呈現(xiàn)負(fù)相關(guān)的根本原因還知之甚少,因在AD與女性雌激素及內(nèi)分泌相關(guān)的癌癥中這種負(fù)相關(guān)性更加明顯[3]。為此本課題選擇乳腺癌(breast cancer, BC)與AD進(jìn)行對(duì)比研究,通過提取與免疫系統(tǒng)緊密相關(guān)的顯著特征基因,構(gòu)建轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)對(duì)它們的負(fù)相關(guān)關(guān)系及其致病機(jī)理進(jìn)行探尋。

      傳統(tǒng)的基因提取算法往往只注重單個(gè)基因在兩類樣本中的表達(dá)差異而忽略了基因相互之間行為的復(fù)雜性,而熵和互信息(mutual information, MI) 則能抓住模式上的相似性,能有效處理基因間復(fù)雜關(guān)系。對(duì)于任意兩條基因若互信息大說明二者在同一樣本中共表達(dá)程度高,反之則弱。運(yùn)用互信息算法[4]在基因表達(dá)數(shù)據(jù)中挖掘差異表達(dá)基因,就是搜索那些在健康樣本與患病樣本中互信息值相差很大的基因作為特征基因。另一方面,基因表達(dá)數(shù)據(jù)無法體現(xiàn)基因轉(zhuǎn)錄調(diào)控信息,考慮到快速網(wǎng)絡(luò)成分分析(fast-network component analysis, FastNCA)算法[5-6]摒除了傳統(tǒng)網(wǎng)絡(luò)成分分析(network component analysis,NCA)算法不穩(wěn)定、運(yùn)行時(shí)間長(zhǎng)等缺點(diǎn),本研究將FastNCA算法用于共有轉(zhuǎn)錄因子,分別推演出兩種疾病患病前后轉(zhuǎn)錄因子活性變化及其對(duì)靶基因調(diào)控強(qiáng)度的變化,并構(gòu)建調(diào)控網(wǎng)絡(luò),結(jié)合分子生物學(xué)研究探討B(tài)C和AD在免疫反應(yīng)下負(fù)相關(guān)的原理,為它們致病機(jī)理的深入研究提供了有益的依據(jù)。

      1 算法

      1.1 互信息算法

      在信息論中,隨機(jī)變量出現(xiàn)的期望值或自信息的均值用熵來衡量,兩個(gè)系統(tǒng)間的統(tǒng)計(jì)相關(guān)或一個(gè)系統(tǒng)能提供給另一個(gè)系統(tǒng)的信息量的多少是用互信息來衡量的。為了能有效抓住基因之間復(fù)雜的關(guān)聯(lián)性,有效提取出復(fù)雜疾病的致病基因[7],采用互信息算法提取特征基因。設(shè)基因變量X=[x1,x2,…,xs]是一個(gè)基因表達(dá)模式,S表示基因表達(dá)數(shù)據(jù)中的樣本的數(shù)量,基因變量X的熵即為該基因表達(dá)模式所包含的信息量,即

      (1)

      聯(lián)合熵表示一對(duì)基因變量X和Y的不確定的度量,即

      (2)

      互信息表示對(duì)于兩個(gè)隨機(jī)變量X和Y,其中一個(gè)變量能提供給另一個(gè)變量的信息量,即

      (3)

      綜上,可以得到基因變量X,Y之間的互信息,有

      (4)

      根據(jù)式(4)分析兩個(gè)基因變量間的關(guān)聯(lián)性,若I(X,Y)較大則表明基因變量X,Y之間相關(guān)性較大,可以認(rèn)為它們?cè)谏飳W(xué)上存在著較強(qiáng)的關(guān)聯(lián)性,反之,若I(X,Y)為0或較小,則表明基因變量X,Y不相互包含任何信息,即在生物學(xué)上不存在關(guān)聯(lián)性。

      1.2 基于互信息算法的特征基因提取

      由于基因變量的連續(xù)性,因此在計(jì)算基因變量的熵或互信息時(shí),首先應(yīng)對(duì)其離散化,本研究借助直方圖方法[9]將基因表達(dá)數(shù)據(jù)全部離散化,分別求出各個(gè)基因的熵及基因之間的聯(lián)合熵,最后根據(jù)式(4)計(jì)算基因變量之間的互信息。

      基因表達(dá)數(shù)據(jù)微陣列E=(E(i,j))NS,N表示基因的數(shù)量,S表示數(shù)據(jù)樣本數(shù)。E(i,j)表示第i條基因在第j個(gè)樣本下的表達(dá)水平值,對(duì)于只包含健康對(duì)照樣本和患病樣本的情況,可將E分為健康對(duì)照樣本Ec和患病樣本Ea兩部分,利用式(4)分別計(jì)算得出Ec和Ea中基因之間的互信息Ic和Ia,其中I為N×N的矩陣。I(i,j)是指第i條基因和第j條基因在兩類樣本中的互信息值,兩條基因之間的互信息值越大,則說明二者在該樣本中關(guān)聯(lián)程度較高,反之關(guān)聯(lián)程度較弱,基于互信息的性質(zhì),研究中最終選定了兩類狀態(tài)的基因做為特征基因:第1類是將在健康對(duì)照樣本中互信息值較小的基因稱其與其他基因失聯(lián),若該基因在患病樣本中的互信息值較高則稱其與其他基因關(guān)聯(lián)。則認(rèn)為此類基因在疾病產(chǎn)生過程中從失聯(lián)狀態(tài)變化為較高關(guān)聯(lián)狀態(tài)勢(shì)必對(duì)疾病的產(chǎn)生具有重要的作用,因此將上述基因作為從失聯(lián)到關(guān)聯(lián)狀態(tài)的特征基因;第2類相反,從關(guān)聯(lián)到失聯(lián)狀態(tài)的基因,也將其選為特征基因。以第2類狀態(tài)為例,求取從關(guān)聯(lián)到失聯(lián)狀態(tài)的特征基因的提取方法。

      選取兩個(gè)閾值Tc和Ta其中Tc>Ta,并對(duì)Ic和Ia進(jìn)行如下具體算法步驟:

      (5)

      (6)

      (7)

      (8)

      為了將所有基因表達(dá)數(shù)據(jù)值映射到[-1,1]區(qū)間,首先對(duì)數(shù)據(jù)進(jìn)行了歸一化,最后對(duì)BC的17個(gè)健康對(duì)照樣本、45個(gè)無轉(zhuǎn)移樣本及AD的13個(gè)健康對(duì)照樣本、10個(gè)患病樣本分別通過式(1)計(jì)算每條基因的信息熵,并將信息熵應(yīng)用于基因表達(dá)數(shù)據(jù)中,若某基因?qū)?yīng)的信息熵值越大,則表明該基因在相應(yīng)樣本中含有的信息量越大,對(duì)分類貢獻(xiàn)率越高。

      1.3 快速網(wǎng)絡(luò)成分分析算法

      由于基因表達(dá)數(shù)據(jù)不能直接體現(xiàn)基因間轉(zhuǎn)錄調(diào)控信息,兩種疾病所提取特征基因無法比較分析其轉(zhuǎn)錄調(diào)控功能和方向的異同,本研究將目前生物學(xué)上已知的TF-TG(transcription factor-target gene)調(diào)控關(guān)系作為先驗(yàn)知識(shí),基于NCA構(gòu)建轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。

      NCA是一種用來分析轉(zhuǎn)錄網(wǎng)絡(luò)基因表達(dá)數(shù)據(jù)的算法[8],其實(shí)質(zhì)是根據(jù)基因表達(dá)數(shù)據(jù)和轉(zhuǎn)錄因子-靶基因調(diào)控關(guān)系的連通性網(wǎng)絡(luò),進(jìn)而推演出TF活性及其對(duì)TG的調(diào)控強(qiáng)度,可表示為

      (9)

      式中,矩陣ENM表示N個(gè)基因在M個(gè)樣本中的基因表達(dá)數(shù)據(jù),矩陣CNL表示L個(gè)轉(zhuǎn)錄因子對(duì)N個(gè)靶基因的調(diào)控關(guān)系,矩陣PLM表示L個(gè)轉(zhuǎn)錄因子在M個(gè)樣本下的表達(dá)活性。

      由式(9)不難看出,要將基因表達(dá)矩陣E分解為調(diào)控矩陣C和活性矩陣P的解不是唯一的,需要分別給C和P矩陣添加更多的約束條件才能滿足唯一解的需求,如矩陣C必須是列滿秩矩陣P必須是行滿秩,且矩陣C的每一列必須至少有L-1個(gè)0,當(dāng)滿足了上面的約束條件后,分解E矩陣最優(yōu)解可以通過以下目標(biāo)函數(shù)來求解,即

      (10)

      FastNCA算法包括3個(gè)主要步驟。

      步驟1:對(duì)矩陣E利用奇異值分解,求得其秩為L(zhǎng)的EYM逼近,即

      (11)

      式中,UL=W。

      步驟2:估計(jì)調(diào)控矩陣C。對(duì)于i=1,2,…,M,將矩陣W進(jìn)行重排,則調(diào)控矩陣C的第i列可以表示為

      (12)

      步驟3:估計(jì)轉(zhuǎn)錄因子活性矩陣P=C+EL。

      此處規(guī)定L=M,從而獲得更好的性能,與傳統(tǒng)利用最小二乘法的NCA算法相比,利用奇異值分解的FastNCA算法,在算法的運(yùn)行速度上明顯比NCA有較大的提高,而且計(jì)算復(fù)雜度低,具有很高的穩(wěn)定性。

      1.4 實(shí)驗(yàn)數(shù)據(jù)

      所使用的基因表達(dá)數(shù)據(jù)取自美國(guó)國(guó)家生物技術(shù)信息中心(National Center for Biotechnology Information, NCBI)基因表達(dá)數(shù)據(jù)庫。乳腺癌數(shù)據(jù)使用的是GSE42568數(shù)據(jù)集,其121個(gè)樣本包括17個(gè)健康對(duì)照樣本、45個(gè)無轉(zhuǎn)移患病樣本(BCno)及59個(gè)腋下淋巴轉(zhuǎn)移樣本(BCmeta)。所使用的是17個(gè)健康對(duì)照樣本和45個(gè)無轉(zhuǎn)移患病樣本(BCno)。阿爾茨海默癥數(shù)據(jù)使用的是GSE5281數(shù)據(jù)集,其包含了161組不同大腦皮層組織樣本的基因表達(dá)數(shù)據(jù),所使用的是海馬區(qū)(hippocampus,HIP)基因表達(dá)數(shù)據(jù),它包括13個(gè)健康對(duì)照樣本和10個(gè)患病樣本。數(shù)據(jù)集GSE42568 和GSE5281中每個(gè)樣本都含有54 675個(gè)探針數(shù)據(jù)。轉(zhuǎn)錄因子對(duì)靶基因的調(diào)控關(guān)系選用的是提供了人類4 105個(gè)轉(zhuǎn)錄因子對(duì)1 974個(gè)靶基因的調(diào)控關(guān)系的ITFP(integrated transcription factor platform, http://itfp.biosino.org/itfp/)平臺(tái)。

      2 結(jié)果

      2.1 互信息提取特征基因

      最終通過計(jì)算分別對(duì)上述4類樣本挑選出滿足上述條件的5 000條基因,以BC為例,對(duì)BC 分別計(jì)算在正常樣本和患病樣本5 000條基因的互信息值可得兩互信息矩陣Ic和Ia,利用互信息提取特征基因的關(guān)鍵在于閾值Tc和Ta的選取,閾值選取不得當(dāng)會(huì)造成得到的特征基因數(shù)過多或過少,都將直接影響后續(xù)的FastNCA算法構(gòu)建調(diào)控網(wǎng)絡(luò)。為了使結(jié)果具有生物學(xué)意義,閾值的選取可根據(jù)圖中孤立點(diǎn)的比例或者圖的密度來選擇,關(guān)于孤立點(diǎn)及圖的密度定義可參考文獻(xiàn)[4]。具體閾值取值及得到的特征基因數(shù)部分實(shí)驗(yàn)數(shù)據(jù)如表1所示,經(jīng)過多次實(shí)驗(yàn)得出,對(duì)BC而言從關(guān)聯(lián)到失聯(lián)較為理想的閾值為Tc=2.32和Ta=1.9,將BC、AD各自兩類樣本得到的兩個(gè)互信息矩陣Ic和Ia分別進(jìn)行式(5)~(8)處理。最終對(duì)于BC和AD分別得到兩種狀態(tài)對(duì)稱矩陣I1和I2共4個(gè)互信息實(shí)對(duì)稱矩陣。分別對(duì)上述4個(gè)實(shí)對(duì)稱互信息矩陣行求和,并以和值所在行為基準(zhǔn)進(jìn)行降序排列,其中和值越大則表示該條基因在對(duì)應(yīng)的樣本中與許多基因相關(guān)聯(lián),反之和值為0的基因則表示該基因在對(duì)應(yīng)樣本中并不與其他基因有關(guān)聯(lián),依據(jù)上述步驟最終挖掘出BC兩種狀態(tài)下的基因分別為769條和923條、共計(jì)1 572條BC特征基因,同理對(duì)AD兩種狀態(tài)提取共計(jì)1 476條特征基因,對(duì)BC和AD兩組實(shí)驗(yàn)得到的差異表達(dá)基因取交集,最后得到175條在兩組數(shù)據(jù)集中都差異表達(dá)的顯著基因。

      表1 閾值選取與特征基因提取Tab.1 Threshold selection and extracting feature gene

      利用DAVID 方法(http://david.abcc.ncifcrf.gov/home.jsp),對(duì)上述175條差異表達(dá)顯著的基因進(jìn)行分析,得到的GO功能注釋[10]的生物過程(BP)、細(xì)胞組分(CC)、分子功能(MF)和KEGG通路[11]分別如表2~5所示,這175個(gè)特征基因在BC和AD中表達(dá)差異顯著。從表格中可以看出,上述表達(dá)差異顯著的基因主要參與的生物過程有磷酸代謝過程、細(xì)胞凋亡、程序性細(xì)胞死亡等,其細(xì)胞組分主要是細(xì)胞器官腔、細(xì)胞骨架等,其分子功能主要是核苷酸結(jié)合、核糖核苷酸結(jié)合、蛋白質(zhì)激酶活性及金屬離子結(jié)合等。其中,細(xì)胞凋亡、程序性細(xì)胞死亡等是免疫反應(yīng)的主要組成部分,它與許多疾病尤其是癌癥和AD的發(fā)生發(fā)展密切相關(guān)。

      表2 175個(gè)表達(dá)差異顯著基因的GO功能注釋(BP)Tab.2 175 significantly differentially expressed genes in GO functional annotation (BP)

      表3 175個(gè)表達(dá)差異顯著基因的GO功能注釋(CC)Tab.3 175 significantly differentially expressed genes in GO functional annotation (CC)

      表4 175個(gè)表達(dá)差異顯著基因的GO功能注釋(MF)Tab.4 175 significantly differentially expressed genes in GO functional annotation (MF)

      表5 175個(gè)表達(dá)差異顯著基因參與的KEGG通路

      Tab.5 175 significantly differentially expressed genes involved in the KEGG pathway

      KEGG通路參與基因數(shù)長(zhǎng)期增強(qiáng)作用4腎細(xì)胞癌4癌癥通路8軸突導(dǎo)向5間隙連接4Wnt信號(hào)通路5醛固酮調(diào)節(jié)的鈉離子的重吸收3淀粉和蔗糖代謝3類固醇激素的生物合成3卵細(xì)胞成熟分裂4子宮內(nèi)膜癌3非小細(xì)胞肺癌3致病性大腸桿菌感染3

      2.2 基于FastNCA構(gòu)建轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)

      為了得到兩種疾病中差異共表達(dá)基因中起主要作用的轉(zhuǎn)錄因子及其對(duì)靶基因的調(diào)控強(qiáng)度信息,首先將175個(gè)差異表達(dá)基因作為靶基因與轉(zhuǎn)錄庫進(jìn)行匹配,得到了520個(gè)TFs及其調(diào)控的87個(gè)TGs共1 004條調(diào)控關(guān)系。選取調(diào)控基因個(gè)數(shù)較多(≥6)的14個(gè)TFs及其調(diào)控的34個(gè)靶基因。為了能更形象具體地觀察轉(zhuǎn)錄因子對(duì)靶基因的調(diào)控強(qiáng)度及其活性,現(xiàn)將FastNCA得到的結(jié)果利用Cytoscape軟件(http://www.cytoscape.org/)分別構(gòu)建BC、AD健康對(duì)照樣本與其各自患病樣本下的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖。為了便于觀察分析,上述兩幅圖中的基因都位于相同的位置,分別如圖1、2所示。

      圖1 BC樣本轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖。(a)健康對(duì)照樣本;(b)患病樣本Fig.1 BC samples transcriptional regulatory network diagram.(a)Healthy control samples;(b)Diseased samples

      圖2 AD樣本轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖。 (a) 健康對(duì)照樣本;(b)患病樣本Fig.2 AD samples transcriptional regulatory network diagram.(a) Healthy control samples;(b) Diseased samples

      在兩幅圖中,圓形節(jié)點(diǎn)代表靶基因,三角形節(jié)點(diǎn)代表轉(zhuǎn)錄因子。節(jié)點(diǎn)的白色和黑色分別表示表達(dá)水平或活性的上調(diào)和下調(diào),顏色的深淺代表了表達(dá)水平或活性的高低,連線的實(shí)線和虛線分別表示轉(zhuǎn)錄因子對(duì)靶基因的調(diào)控強(qiáng)度的正負(fù)。從構(gòu)建的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖,可見轉(zhuǎn)錄因子和靶基因之間存在一對(duì)多及多對(duì)一的情況,充分印證了所選取互信息算法提取差異共表達(dá)基因的必要性。比較圖1(a)、(b),可以明顯看出在BC患病前后轉(zhuǎn)錄因子表達(dá)活性升高的有WHSC1、ANAPC5、POLR2E、THOC4、PTBP1、MRPS12、MYST3、FBXO22,轉(zhuǎn)錄因子表達(dá)活性降低的有MCM4、RFC5、RPAP3、KPNA1、KPNA2、ZCCHC7。同理,比較圖2(a)、(b),AD患病前后的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖中轉(zhuǎn)錄因子表達(dá)活性升高的有WHSC1、ANAPC5、RFC5、KPNA1、MRPS12,轉(zhuǎn)錄因子表達(dá)活性降低的有MCM4、RPAP3、 KPNA2、ZCCHC7、POLR2E、THOC4、FBXO22、MYST3、PTBP1。

      將BC和AD共用的14個(gè)轉(zhuǎn)錄因子相對(duì)于各自的健康參照樣本的轉(zhuǎn)錄活性變化趨勢(shì)進(jìn)行構(gòu)圖,具體如圖3所示,圖中橫軸的1、2分別代表健康對(duì)照樣本、患病樣本??v坐標(biāo)代表轉(zhuǎn)錄因子活性的高低,其中圓形端點(diǎn)線段代表了BC的轉(zhuǎn)錄因子活性變化趨勢(shì),三角形端點(diǎn)的線段代表AD的轉(zhuǎn)錄因子活性變化趨勢(shì)。

      圖3 BC與AD轉(zhuǎn)錄因子表達(dá)活性對(duì)比圖(各子圖中橫坐標(biāo)“1”和“2”分別表示健康對(duì)照樣本和患病樣本,縱坐標(biāo)表示對(duì)應(yīng)轉(zhuǎn)錄因子的表達(dá)活性,兩者均為無量綱量)Fig.3 BC and AD transcription factor expression activity comparison chart(The ‘1’and ‘2’ in the abscissas of each sub-figure represents healthy and AD/BC sample respectively, and the ordinate denotes the activities of the corresponding TFs.Both of them are dimensionless variables)

      從圖3中可以清楚地看到,BC與AD轉(zhuǎn)錄因子表達(dá)活性相反的有POLR2E、RFC5、THOC4、FBXO22、KPNA1、MYST3、PTBP1,其余的7個(gè)轉(zhuǎn)錄因子的表達(dá)活性是一致的。

      3 討論

      癌癥與AD之間呈現(xiàn)負(fù)相關(guān)關(guān)系已在流行病學(xué)統(tǒng)計(jì)中越來越明顯,但目前對(duì)于其發(fā)生的根本原因仍知之甚少。利用生物信息學(xué)方法進(jìn)行兩種疾病特征基因選擇和信號(hào)傳導(dǎo)通路分析是目前有針對(duì)性的有效分析方法之一。本課題選用互信息這一更能體現(xiàn)基因相關(guān)性的算法提取BC和AD共有的175條差異表達(dá)基因,利用GO數(shù)據(jù)庫對(duì)提取的特征基因所參與的生物學(xué)過程及通路進(jìn)行分類分析發(fā)現(xiàn)其參與的主要生物學(xué)過程有磷酸代謝過程、蛋白質(zhì)氨基的磷酸化、調(diào)控細(xì)胞死亡、雌激素代謝過程、氧化還原及程序性細(xì)胞死亡,即在兩種病中都包含的常見的生物學(xué)過程但作用效果卻不同,如在細(xì)胞代謝過程中對(duì)BC而言補(bǔ)償?shù)拇x效應(yīng)是糖酵解的上調(diào)即瓦爾堡效應(yīng),而對(duì)AD而言則是氧化磷酸化的上調(diào)與瓦爾堡效應(yīng)相反[12]。

      本課題提取出了癌癥通路涉及的基因有APC、AR、CUL2、HGF、PRKCA、TPR、KRAS、CRK,軸突導(dǎo)向通路涉及的基因有EPHA4、CHP、EFNB2、RGS3、KRAS、類固醇激素的生物合成通路涉及的基因有AKR1C1、COMT、HSD17B1,參與Wnt通路的基因有APC、CHP、CSNK1A1、CSNK2A2、PRKCA,文獻(xiàn)[2]已經(jīng)證實(shí)Wnt信號(hào)通路上調(diào)會(huì)阻止神經(jīng)元退化,保證其活性更容易形成癌癥,相反,抑制Wnt通路能使神經(jīng)元死亡或消失促使AD的發(fā)生。由此可見更深入的探尋BC和AD致病基因相關(guān)通路是研究?jī)烧叱尸F(xiàn)負(fù)相關(guān)根本原因的重要任務(wù)之一。

      在信使RNA合成方面,本課題對(duì)所提取的轉(zhuǎn)錄因子POLR2E患病前后表達(dá)活性值進(jìn)行計(jì)算可知,其在乳腺癌中的表達(dá)活性升高0.169而在AD中的活性降低0.27。目前已有研究表明POLR2E主要編碼RNA聚合酶Ⅱ[13],RNA聚合酶Ⅱ被認(rèn)為在負(fù)責(zé)信使RNA合成中作用最大,故POLR2E表達(dá)活性上調(diào)會(huì)間接導(dǎo)致mRNA合成量增多從而加速細(xì)胞的增殖。由圖1、2可知轉(zhuǎn)錄因子RFC5調(diào)控靶基因SMARCA4且其表達(dá)活性從健康到BC患病過程中由0.269降低至0.077,而從健康到AD患病過程中則由-0.43升高至0.307。SMARCA4屬于SWI / SNF的成員,已有研究表明SWI / SNF表達(dá)紊亂會(huì)導(dǎo)致BC和AD的發(fā)生[14-15]。THOC4基因的表達(dá)也對(duì)胚胎細(xì)胞起重要的作用且受ZFP206的調(diào)控[16]。Zhang 等的研究發(fā)現(xiàn),ZFP206調(diào)控胚胎干細(xì)胞的增殖和分化,并在胚胎細(xì)胞增殖過程中過表達(dá),這剛好符合圖3中THOC4在BC和AD中的表達(dá)活性情況,即THOC4表達(dá)活性升高促進(jìn)細(xì)胞增殖促使乳腺癌的形成同時(shí)降低了AD患病概率。在炎癥反應(yīng)方面,F(xiàn)BXO22、SKP1、GogB相互作用具有抗炎作用,GogB升高會(huì)抑制NF-κB,降低則會(huì)增加炎癥反應(yīng)。而許多研究均已證實(shí)炎癥在AD的發(fā)病過程中扮演著重要的角色[17]。研究顯示BIG3通過封鎖KPNA1與PHB2(抗增殖蛋白)的鏈接區(qū)域達(dá)到抑制PHB2表達(dá)的效果,與此同時(shí)PHB2又和雌激素受體之間在細(xì)胞核中存在相互作用[18]。文獻(xiàn)[3]則表明雌激素可以下調(diào)炎癥基因的表達(dá)同時(shí)會(huì)增加乳腺癌的風(fēng)險(xiǎn)。研究表明p53功能性突變上調(diào)MYST53會(huì)促進(jìn)腫瘤的生長(zhǎng)。Sheikh等的研究表明,MOZ(MYST3, KAT6A)通過INK4A-ARF通路能夠抑制衰老[19]。這正好與圖3中MYST3作為BC和AD共有的轉(zhuǎn)錄因子表達(dá)活性相符,即在BC中表達(dá)活性升高了0.079同時(shí)在AD中表達(dá)活性降低了0.502。PTBP1與乳腺腫瘤的形成有關(guān),并對(duì)腫瘤細(xì)胞的生長(zhǎng)和保持改變屬性是必不可少的,PTBP1表達(dá)水平的下降會(huì)導(dǎo)致PKM1表達(dá)的上調(diào),同時(shí)PKM1會(huì)進(jìn)一步促進(jìn)氧化磷酸化并減少腫瘤的形成[20]。而Demetrius等的研究表明,在AD中存在氧化磷酸化的上調(diào)跡象[12]。由圖3不難看出,該轉(zhuǎn)錄因子在BC中的表達(dá)活性上升而在AD中表達(dá)活性降低。綜上所述本課題所提取的與BC和AD相關(guān)基因、轉(zhuǎn)錄因子及涉及的通路共同參與了細(xì)胞增殖和凋亡有關(guān)的基本的生物過程,但在兩種疾病中卻起著相反作用,這為生物學(xué)實(shí)驗(yàn)及有關(guān)BC和AD負(fù)相關(guān)致病機(jī)理的分析提供了堅(jiān)實(shí)的依據(jù)和基礎(chǔ)。

      4 結(jié)論

      鑒于BC和AD發(fā)病機(jī)制復(fù)雜且都與免疫系統(tǒng)有關(guān),以及相關(guān)研究顯示二者呈負(fù)相關(guān),為了更進(jìn)一步了解二者呈負(fù)相關(guān)的原因,本研究首先對(duì)BC和AD基因表達(dá)數(shù)據(jù)分別利用特征基因提取算法獲取二者的特征基因并取其共有的特征基因。為了避免傳統(tǒng)特征基因提取方法只注重單個(gè)基因在不同樣本中的表達(dá)差異而忽視了基因之間的關(guān)聯(lián)性,研究中選用互信息算法分別提取BC和AD的致病特征基因,然后通過FastNCA算法構(gòu)建TF-TG轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò),最后運(yùn)用Cytoscape構(gòu)圖直觀呈現(xiàn)TF對(duì)TG的調(diào)控強(qiáng)度及表達(dá)活性變化。在最后得到的在兩種疾病中表達(dá)活性及調(diào)控作用呈相反關(guān)系的轉(zhuǎn)錄因子,包括POLR2E、RFC5、THOC4、FBXO22、KPNA1、MYST3、PTBP1等。通過分子生物學(xué)分析可知,它們所影響的調(diào)控關(guān)系及生物過程對(duì)BC及AD的致病起著關(guān)鍵作用。通過對(duì)調(diào)控網(wǎng)絡(luò)的分析,也發(fā)現(xiàn)了很多BC和AD致病的共有基因,對(duì)兩種疾病之間呈現(xiàn)負(fù)相關(guān)機(jī)制的探尋具有重要意義。

      [1] Catalá-López F, Crespo-Facorro B, Vieta E, et al. Alzheimer′s disease and cancer: current epidemiological evidence for a mutual protection[J]. Neuroepidemiology, 2014, 42(2): 121-122.

      [2] Driver JA. Inverse association between cancer and neurodegenerative disease: review of the epidemiologic and biological evidence[J]. Biogerontology, 2014, 15(6): 547-557.

      [3] Realmuto S, Cinturino A, Arnao V, et al. Tumor diagnosis preceding Alzheimer’s disease onset: is there a link between cancer and Alzheimer’s disease?[J]. Journal of Alzheimer's Disease, 2012, 31(1): 177-182.

      [4] 張煥萍,王惠南,盧光明,等. 基于互信息的差異共表達(dá)致病基因挖掘方法[J]. 東南大學(xué)學(xué)報(bào): 自然科學(xué)版, 2009, 39(1): 151-155.

      [5] Chang C, Ding Z, Hung YS, et al. Fast network component analysis for gene regulation networks[C]// 2007 IEEE Workshop on Machine Learning for Signal Processing. Thessaloniki:IEEE, 2007: 21-26.

      [6] Chang C, Ding Z, Hung YS, et al. Fast network component analysis (FastNCA) for gene regulatory network reconstruction from microarray data[J]. Bioinformatics, 2008, 24(11): 1349-1358.

      [7] 孫嘯,陸祖宏,謝建明. 生物信息學(xué)基礎(chǔ)[M]. 北京:清華大學(xué)出版社,2005.

      [8] Liao JC, Boscolo R, Yang YL, et al. Network component analysis: reconstruction of regulatory signals in biological systems[J]. Proceedings of the National Academy of Sciences, 2003, 100(26): 15522-15527.

      [9] Steuer R, Kurths J, Daub CO, et al. The mutual information: detecting and evaluating dependencies between variables[J]. Bioinformatics, 2002, 18(Suppl 2): S231-S240.

      [10] Gene Ontology Consortium. The Gene Ontology (GO) database and informatics resource[J]. Nucleic Acids Research, 2004, 32(Suppl 1): D258-D261.

      [11] Kanehisa M, Goto S. KEGG: Kyoto encyclopedia of genes and genomes[J]. Nucleic Acids Research, 2000, 28(1): 27-30.

      [12] Demetrius LA, Simon DK. The inverse association of cancer and Alzheimer's: A bioenergetic mechanism[J]. Journal of the Royal Society Interface, 2013, 10(82): 20130006.

      [13] Ye X, Xiao P, Hu X, et al. Crystallization and preliminary X-ray analysis of the RPB5 subunit of human RNA polymerase II[J]. Acta Crystallographica Section F: Structural Biology and Crystallization Communications, 2011, 67(11): 1391-1393.

      [14] Reisman D, Glaros S, Thompson EA. The SWI/SNF complex and cancer[J]. Oncogene, 2009, 28(14): 1653-1668.

      [15] Schirer Y, Malishkevich A, Ophir Y, et al. Novel marker for the onset of frontotemporal dementia: early increase in activity-dependent neuroprotective protein (ADNP) in the face of Tau mutation[J]. PloS ONE, 2014, 9(1): e87383.

      [16] Zhang W, Walker E, Tamplin OJ, et al. Zfp206 regulates ES cell gene expression and differentiation[J]. Nucleic Acids Research, 2006, 34(17): 4780-4790.

      [17] Pilar AVC, Reid-Yu SA, Cooper CA, et al. Active modification of host inflammation by Salmonella[J]. Gut microbes, 2013, 4(2): 140-145.

      [18] Kim NH, Yoshimaru T, Chen YA, et al. BIG3 inhibits the estrogen-dependent nuclear translocation of PHB2 via multiple karyopherin-alpha proteins in breast cancer Cells[J]. PLoS ONE, 2015, 10(6):e0127707.

      [19] Sheikh BN, Phipson B, El-Saafin F, et al. MOZ (MYST3, KAT6A) inhibits senescence via the INK4A-ARF pathway[J]. Oncogene, 2015,34(47): 5807-5820.

      [20] He X, Arslan AD, Ho TT, et al. Involvement of polypyrimidine tract-binding protein (PTBP1) in maintaining breast cancer cell growth and malignant properties[J]. Oncogenesis, 2014, 3(1): e84.

      Exploration of Pathogenesis in Immune System of Breast Cancer and Alzheimer′s Disease Based on Mutual Information

      Liu Fang1Kong Wei1*Mou Xiaoyang2

      1(InformationEngineeringCollege,ShanghaiMaritimeUniversity,Shanghai201306,China)2(DepartmentofChemistryandBiochemistry,RowanUniversity,NJ08028,USA)

      In recent years, a growing number of epidemiological studies have shown that many kinds of cancer and Alzheimer′s disease have an inverse association, but the molecular biological mechanism remains unclear. Researching the inverse association from gene signal transduction and regulatory networks will play an important role in exploring the pathogenesis of both diseases. Breast cancer (BC) and AD were selected to be analyzed. Taking account of that the traditional genes extraction algorithms focused on a single gene expressed differently in different samples and ignored the links among the correlation genes, mutual information (MI) was utilized to extract the differentially expressed genes in the two diseases basing on the correlation among genes using as feature genes. In this paper, considering the limitation of network component analysis (NCA),such as the strong constraint conditions and the long running time, fast-network component analysis (FastNCA), improved by NCA,was brought up to get the activity of transcription factors among feature genes and TF′s regulate strength of target genes, and construct two diseases transcriptional regulatory networks, respectively. Experimental results showed that the activities and the regulate and control strength of TFs were totally opposite in the two diseases, for example POLR2E, RFC5, THOC4, FBXO22, KPNA1, MYST3 and PTBP1, for example, transcription factors RFC5 activities in BC decreased from 0.269 to 0.077, and in AD increased by -0.430 to 0.307. According to the experiment and analysis of molecular biology, the regulate relationship and the biological process influence from these TFs play a vital role in BC and AD.

      breast cancer; Alzheimer′s disease; mutual information; fast network component analysis; immunity

      10.3969/j.issn.0258-8021. 2016. 03.006

      2015-10-28, 錄用日期:2016-03-21

      國(guó)家自然科學(xué)基金(61271466);上海市教委科研創(chuàng)新項(xiàng)目(15ZZ079)

      Q343.1

      A

      0258-8021(2016) 03-0292-09

      *通信作者(Corresponding author), E-mail:weikong@shmtu.edu.cn

      猜你喜歡
      互信息患病調(diào)控
      為照顧患病家父請(qǐng)事假有何不可?
      野生動(dòng)物與人獸共患病
      科學(xué)(2020年3期)2020-11-26 08:18:20
      如何調(diào)控困意
      經(jīng)濟(jì)穩(wěn)中有進(jìn) 調(diào)控托而不舉
      順勢(shì)而導(dǎo) 靈活調(diào)控
      “glifo”幫助患病兒童圓提筆之夢(mèng)
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      SUMO修飾在細(xì)胞凋亡中的調(diào)控作用
      改進(jìn)的互信息最小化非線性盲源分離算法
      青海省| 徐州市| 肃北| 永城市| 德安县| 松阳县| 林州市| 新巴尔虎左旗| 阳曲县| 武定县| 出国| 晋江市| 徐水县| 安泽县| 通榆县| 如东县| 崇义县| 漳州市| 永寿县| 江陵县| 阳江市| 内黄县| 宣武区| 晋宁县| 福鼎市| 高清| 凤山市| 泰和县| 建水县| 延长县| 龙岩市| 教育| 赞皇县| 滁州市| 乌兰浩特市| 平度市| 河池市| 闽侯县| 徐汇区| 绥化市| 平陆县|