董 超 王小剛
(復(fù)旦大學計算機科學技術(shù)學院 上海市智能信息處理重點實驗室 上海 200000)
?
基于直推式學習的視網(wǎng)膜致病基因預(yù)測模型
董超王小剛
(復(fù)旦大學計算機科學技術(shù)學院 上海市智能信息處理重點實驗室上海 200000)
摘要生物信息學的一個重要目的是幫助人類深入地認識疾病的過程、遺傳特性和潛在的治療方法。然而,發(fā)現(xiàn)致病基因往往是一項復(fù)雜而艱巨的工作,比如一些遺傳性的眼部疾病。在綜合了收集到的眾多基因表達數(shù)據(jù)的基礎(chǔ)上,提出一種雙層的直推式機器學習(TTP)模型,用于發(fā)現(xiàn)潛在的視網(wǎng)膜致病基因。里層用于從多維的Human BodyMap 2.0和眼部組織基因表達譜中分別獲取貢獻度;在外層學習中,里層獲取的貢獻度將和Crx和ChIP-Seq數(shù)據(jù)一起學習得出致病基因的排序結(jié)果。實驗結(jié)果表明,在致病基因預(yù)測上,直推式學習的準確度要優(yōu)于傳統(tǒng)的監(jiān)督學習。另外,還發(fā)現(xiàn)一個有趣的現(xiàn)象,數(shù)據(jù)的集成并不是總能得到有利的結(jié)果。
關(guān)鍵詞直推式學習致病基因預(yù)測機器學習集成
0引言
在生物信息學和生物醫(yī)學領(lǐng)域,致病基因的發(fā)現(xiàn)一直是一項頗具挑戰(zhàn)的任務(wù)。計算型致病基因的發(fā)現(xiàn)方法在相關(guān)領(lǐng)域研究中的需求正與日俱增。
視網(wǎng)膜是位于眼睛內(nèi)表面的一個神經(jīng)組織。由于視網(wǎng)膜:①可以被直接觀察和記錄;②可以從視野和視角來衡量其功能性;③可以通過光學相干斷層掃描來量化其構(gòu)造[1]。因此,視網(wǎng)膜也被認為是比較適合于研究遺傳性疾病的組織。
人類基因眾多,因此僅從生物角度去驗證基因是否與視網(wǎng)膜疾病相關(guān)費時且費力。本文提出一種基于直推式學習的視網(wǎng)膜致病基因預(yù)測模型,將基因組中基因按其與視網(wǎng)膜致病基因相關(guān)程度進行排序,從而可以讓生物研究人員將精力集中在這些相關(guān)程度較高的少量基因上,加快致病基因的發(fā)現(xiàn)和潛在治療方案的提出。
1背景介紹
在以前的致病基因預(yù)測研究中,采用過多種類型的生物數(shù)據(jù)。其中,一些方法基于相同疾病基因位點間的功能標注過表達[2];一些方法采用了致病基因基于序列的共性來為候選基因進行排序[3];還有一些方法表明了物理上相互關(guān)聯(lián)的蛋白質(zhì)有作用于相同細胞過程的趨勢,并以此作為發(fā)現(xiàn)致病基因的線索[4]。然而,大多數(shù)方法都是嚴重地偏向于一些被廣泛研究的基因[5]。
隨著生物技術(shù)的飛速發(fā)展,大量的組學數(shù)據(jù)不斷產(chǎn)生。對于視網(wǎng)膜疾病,小鼠視網(wǎng)膜特異性基因網(wǎng)絡(luò)[6]收集了不同類別的基因表達數(shù)據(jù)、蛋白質(zhì)互作數(shù)據(jù)、基因本體論標識數(shù)據(jù)庫。PULP[1]集成了多個公開的基因組數(shù)據(jù)源,包括小鼠視網(wǎng)膜CRX轉(zhuǎn)錄因子的感光細胞特定信號、人類視網(wǎng)膜的RNA-Seq數(shù)據(jù)、Human BodyMap 2.0中的16個組織數(shù)據(jù)以及10個眼部子器官的Microarray表達數(shù)據(jù)。PULP將這些數(shù)據(jù)集成到一個機器學習模型中用于進行致病基因的排序[7]。
為了充分利用收集到的數(shù)據(jù),一些基因預(yù)測方法采用了監(jiān)督式學習。例如在人類互作蛋白網(wǎng)絡(luò)中采用K近鄰方法來識別致病基因[8]。另外,基于與致病基因緊密關(guān)聯(lián)的基因往往也與疾病有關(guān)這個假設(shè),小鼠視網(wǎng)膜特異性基因網(wǎng)絡(luò)采用了貝葉斯網(wǎng)絡(luò)來預(yù)測致病基因[6]。
事實上,只有少量的基因已知與疾病相關(guān),大部分基因都是未知的,也就是無標簽的。因此,監(jiān)督式學習在這里存在致命的缺陷就是有標簽的數(shù)據(jù)比例太小而不能提供足夠的分類信息。盡管判斷一個基因是否與疾病相關(guān)是一項花費巨大的工作,但隨著高通量測序的發(fā)展,生物數(shù)據(jù)卻隨手可得。這些無標簽的數(shù)據(jù)可以有效地改善僅在少量有標簽數(shù)據(jù)集中學習的結(jié)果[9]。因此,出現(xiàn)了一些將有標簽數(shù)據(jù)和無標簽數(shù)據(jù)一起學習的方法。PULP將所有的無標簽數(shù)據(jù)均視為負樣本并對所有基因進行留一驗證,再根據(jù)監(jiān)督學習得出的結(jié)果對基因按照其是致病基因的可能性進行排序。事實上,PULP所用的仍然是一種監(jiān)督式學習方法,而且正樣本和負樣本巨大的差異可能會導(dǎo)致模型的片面性。
在機器學習中,有兩種主流的處理無標簽數(shù)據(jù)的方法,分別是半監(jiān)督學習和直推式學習。半監(jiān)督學習旨在任何可能的數(shù)據(jù)集上構(gòu)建泛化模型,而直推式學習僅關(guān)注現(xiàn)有數(shù)據(jù)集上的最優(yōu)泛化。換句話說,半監(jiān)督學習是無界的,因為其測試數(shù)據(jù)是未知的,而直推式學習是有界的,所有的測試數(shù)據(jù)在訓練時均已包含其中。
本文提出了一種雙層直推式學習模型用來對視網(wǎng)膜致病基因進行預(yù)測(TTP模型)。本文收集了多種類型的基因表達譜數(shù)據(jù),包括了人類組織特異性表達數(shù)據(jù)和人類10個眼部子器官的microarray數(shù)據(jù),另外,還收集了小鼠的Crx ChIP-Seq數(shù)據(jù)。由于基因表達數(shù)據(jù)占據(jù)了所收集數(shù)據(jù)的大部分,為了平衡其他組學數(shù)據(jù)的影響,我們提出了雙層直推式學習模型。里層用于從不同類型的數(shù)據(jù)中獲取各自的貢獻度,包括基因表達數(shù)據(jù),Human BodyMap 2.0的組織特異性數(shù)據(jù)以及人類10個眼部子器官的特異性數(shù)據(jù)。外層學習將里層得到的貢獻度結(jié)合Crx ChIP-Seq數(shù)據(jù)再次進行建模。其中,里層和外層都基于直推式學習。
2實驗材料和方法
2.1數(shù)據(jù)和材料
公開的Human BodyMap 2.0 RNA-Seq數(shù)據(jù)可以從網(wǎng)絡(luò)獲取(SRA編號ERP000546),包括了甲狀腺、睪丸、卵巢、白細胞、骨骼肌、前列腺、淋巴、肺、腦、脂肪、腎上腺、乳腺、結(jié)腸、腎臟、心臟和肝臟。由于Human BodyMap 2.0中并沒有包含視網(wǎng)膜,因此我們將私有的人類視網(wǎng)膜RNA-Seq數(shù)據(jù)加入到了Human BodyMap 2.0數(shù)據(jù)集中。
對于RNA-Seq數(shù)據(jù),原始RNA-Seq讀段數(shù)都通過Tophat[10]進行序列比對。再用Cufflink[11]獲取基因水平的表達數(shù)據(jù)FPKM(Fragments Per Kilobase exon model per Million mapped reads)。在比對過程中,采用UCSC的h19作為參照。
公開的人類眼部子器官數(shù)據(jù)(GEO編號GSE41102)代表了19個眼部子器官的表達譜,其中包含有視網(wǎng)膜。
Crx是一種作用于感光細胞分化的轉(zhuǎn)錄因子,是維持標尺和椎體正常功能所必須的同源結(jié)構(gòu)域蛋白。因此該蛋白的調(diào)控基因的異變很有可能引起視網(wǎng)膜功能性的喪失。
2.2已知視網(wǎng)膜致病基因和候選基因列表
我們從RetNet(https:://sph.uth.edu/retnet/)中人工選取出166個已知的視網(wǎng)膜致病基因。RetNet提供了導(dǎo)致遺傳性視網(wǎng)膜疾病的基因和基因位點列表。在本實驗中,這些基因被標記為正樣本。
另外,最近一項研究得出了一個包含640個基因的潛在的視網(wǎng)膜相關(guān)基因列表。為了得到無偏見的對比,我們僅保留了同時也出現(xiàn)在候選基因列表里的452個基因。在下文中,我們稱該候選列表為Cilia。
2.3實驗方法
本文設(shè)計了一個基于雙層直推式學習模型用于視網(wǎng)膜致病基因的預(yù)測,簡稱TTP。
我們采用了svm-light[12]作為直推式學習軟件,svm-light是用C語言實現(xiàn)的SVM,其中包含一種大規(guī)模直推式SVM算法[13]。
在所收集的數(shù)據(jù)中,每種類型的數(shù)據(jù)是不均衡的。相比于一維的ChIP-Seq數(shù)據(jù),基因表達數(shù)據(jù)往往是多維的。在傳統(tǒng)的集成式方法中,這些維度被同等對待,從而導(dǎo)致隱藏在ChIP-Seq數(shù)據(jù)中的信息被大量的基因表達數(shù)據(jù)沖淡。因此,為了所有類型的數(shù)據(jù)都能得到有效的利用,我們設(shè)計了一個雙層模型。在里層,將對每個基因基于基因表達數(shù)據(jù)計算出其余疾病關(guān)聯(lián)的置信度。外層中,這些置信度將和ChIP-Seq數(shù)據(jù)一起進行計算得出最終的置信度。最終,我們將所有基因按照置信度降序排序,越高的置信度就代表該基因與視網(wǎng)膜疾病相關(guān)度越高。
基因表達數(shù)據(jù)被自然的分成兩個視圖:Human BodyMap 2.0加上人類視網(wǎng)膜數(shù)據(jù),以及人類10個眼部子器官數(shù)據(jù)。這些數(shù)據(jù)從粗粒度和細粒度的角度提供了信息。我們分別對這兩個視圖采用直推式SVM計算出對應(yīng)的置信度,進而將這些置信度送入外層直推模型。
對于一般分類問題,正樣本和負樣本都是必須的。由于無法確定基因是否與疾病完全不關(guān)聯(lián),所以負樣本采用了隨機采樣方式。為了減小采樣偏見帶來的影響,我們隨機采樣了1 000次,取平均置信度作為結(jié)果。其中,每次采樣的負樣本數(shù)為正樣本數(shù)的三倍。每組數(shù)據(jù)都將采用TTP進行分析。
3結(jié)果分析
我們的研究目的在于得到與視網(wǎng)膜疾病相關(guān)基因的候選基因排序表,并提供給相關(guān)生物研究人員。為了評估結(jié)果,我們采取了兩方面的標準:①采用TTP預(yù)測出的致病基因是致病基因的可能性大于隨機選擇的p-value值;②排在前K個基因中已知致病基因的個數(shù)。我們運行了1000次TTP并將平均置信度作為排序標準。
3.1交叉驗證
為了評估模型,采用了3倍交叉驗證。在每次交叉驗證中,隨機選取三分之一的已知致病基因正樣本和三倍于已知致病基因的負樣本作為測試集,每次交叉驗證中隨機選擇100次。如表1所示,測試集中超過一半的正樣本排在前1200個基因中(fold change=5.84)。
表1 交叉驗證中前K基因中已知致病基因覆蓋率
3.2與其他視網(wǎng)膜致病基因預(yù)測工具的對比
我們將TTP與另外兩個最新的視網(wǎng)膜致病基因預(yù)測工具進行了對比,分別是PULP和OTDB(眼部組織數(shù)據(jù)庫)[7]。其中,OTDB包含了十個眼部子器官的microarray數(shù)據(jù),PULP是一種集成式工具。我們從https://github.com/ahwagner/PULP和https://genome/uiowa.edu/otdb/上分別下載了PULP的源碼和OTDB的實驗結(jié)果。在PULP中,根據(jù)分類器的表現(xiàn)對比[1],采用了 邏輯回歸作為基因排序的分類器。同時,在OTDB中,我們計算了每個基因在視網(wǎng)膜中的分布相對于在其他9個眼部器官分布的z-score值,并且按照z-score降序排列。這個有序基因列表可能有助于發(fā)現(xiàn)一些與視網(wǎng)膜異常相關(guān)的基因。
為了和其他預(yù)測工具對比模型,用PULP和OTDB的數(shù)據(jù)分別運行了雙層直推式學習。我們設(shè)計了TTP-ocular,該模型和TTP不同的地方就在于其僅使用了OTDB的數(shù)據(jù),而TTP使用的數(shù)據(jù)和PULP是一樣的。
我們采用了Wilcoxon秩和檢驗方法來評估每個工具的結(jié)果的有序基因列表:PULP、OTDB、TTP和TTP-ocular。P-value值如表2所示。這些p-value值均為1000次Wilcoxon檢驗的均值。每次檢驗中,我們將所有已知致病基因在結(jié)果列表中排序的總和與隨機選取基因的排序總和進行對比。另外,我們也對比了前K個基因中已知致病基因出現(xiàn)的個數(shù),如表2所示。
表2 PULP、OTDB、TTP、TTP-ocular的結(jié)
TTP和PULP使用的數(shù)據(jù)完全相同,因此可以得出直推式學習在利用無標簽數(shù)據(jù)的方面要優(yōu)于PULP對待無標簽數(shù)據(jù)的方法。另外,通過對比TTP-ocular和OTDB可以發(fā)現(xiàn)直推式學習可以得到比僅僅計算z-score值更好的結(jié)果。
前K個基因的對比表明直推式學習模型更能有效地將致病基因排在靠前部分。如表2所示,在OTDB和TTP-ocular中,TTP-ocular前K個基因中致病基因的個數(shù)幾乎是OTDB的兩倍。
通過表2中的對比數(shù)據(jù),我們還發(fā)現(xiàn)了一個有趣的現(xiàn)象:數(shù)據(jù)集成得越多,不代表一定獲得更好的預(yù)測效果。OTDB的眼部microarray數(shù)據(jù)僅僅是PULP中使用的一部分數(shù)據(jù)。然而PULP和TTP的預(yù)測結(jié)果都比OTDB差。即使是基于相同的模型,集成更多數(shù)據(jù)的TTP的預(yù)測結(jié)果也要差于TTP-ocular。這就驅(qū)使了我們進一步去探索每一種類型數(shù)據(jù)的作用。在表3中,我們設(shè)計了一系列的對比實驗來單獨描述每一種類型數(shù)據(jù)對最終預(yù)測結(jié)果的影響。
表3 Human BodyMap 2.0和10個眼部子器官數(shù)據(jù)分別對致病
如表3所示,Human BodyMap 2.0的數(shù)據(jù)和眼部子器官數(shù)據(jù)的結(jié)果比較相似,兩者的相關(guān)系數(shù)為0.481,表明這兩種數(shù)據(jù)提供的信息比較類似,從而不能為集成帶來更好的結(jié)果。為了獲得更好的效果,集成數(shù)據(jù)源的多樣性是一個必要的因素。Human BodyMap 2.0和眼部子器官數(shù)據(jù)都是基于表達水平的數(shù)據(jù),這也就提醒我們可以采用不同類型的組學數(shù)據(jù),包括蛋白組學數(shù)據(jù),代謝組學數(shù)據(jù)以及基因變異數(shù)據(jù)等。
4結(jié)語
在本文中,我們集成了不同類型的基因表達譜數(shù)據(jù),包括了Crx ChIP-seq數(shù)據(jù)、Human BodyMap 2.0中16種組織器官的RNA-Seq數(shù)據(jù)以及10個眼部子器官的microarray數(shù)據(jù)。
由于比較難以獲取這些現(xiàn)有數(shù)據(jù)的標簽,并且我們的任務(wù)僅是解決一個特定的問題,因此,采用了一個雙層直推式學習的模型將不同類型的基因表達數(shù)據(jù)和組學數(shù)據(jù)進行集成并對候選基因進行預(yù)測。內(nèi)層用于平衡不同維度的表達譜數(shù)據(jù)的貢獻度,外層將內(nèi)層結(jié)果結(jié)合一些單維的組學數(shù)據(jù)再次建模來獲取基因預(yù)測結(jié)果。為了評估該雙層模型,我們將結(jié)果和以現(xiàn)有的一些視網(wǎng)膜致病基因預(yù)測工具進行了對比。對比結(jié)果顯示我們的模型能更好地將致病基因排在靠前部分。
在本文的模型中,由于難以獲取負樣本標簽,隨機選擇的負樣本可能會給分類結(jié)果帶來意料之外的偏見。然而,一些組織以及被證實與視網(wǎng)膜存在較大差異,比如外周血、肝臟以及肌肉。我們認為這些組織的特異性基因可以作為更好的負樣本數(shù)據(jù)源。
隨著越來越多的組學數(shù)據(jù)出現(xiàn),數(shù)據(jù)集成是大勢所趨。本文也表明了有效地選擇數(shù)據(jù)源進行集成非常重要,更多的生物過程數(shù)據(jù)以及更多類型的數(shù)據(jù)往往會為集成帶來更好的結(jié)果。
隨著生物信息學和生物醫(yī)學的不斷發(fā)展,我們相信本文的工作將給生物學和相關(guān)研究人員的工作提供較大的幫助。
參考文獻
[1] Wagner A H,Taylor K R,Deluca A P,et al.Prioritization of Retinal Disease Genes:An Integrative Approach[J].Human Mutation,2013,34(6):853-859.
[2] Turner F S,Clutterbuck D R,Semple C A M.POCUS:mining genomic sequence annotation to predict disease genes[J].Genome biology,2003,4(11):R75-R75.
[3] Ea A,Rr A,Kl E,et al.Speeding disease gene discovery by sequence based candidate prioritization[J].Bmc Bioinformatics,2005,6(1):55.
[4] Oti M,Snel B,Huyen M A,et al.Predicting disease genes using protein-protein interactions[J].Journal of medical genetic,2006,43(8):691-698.
[5] Rm P,F Di Cunto.Computational approaches to disease-gene prediction: rationale,classification and successes[J].FEBS Journal,2012,279(5):1754-1760.
[6] Hackler L,Zack D J,Hu J F,et al.Computational analysis of tissue-specific gene networks:application to murine retinal functional studies[J].Bioinformatics,2008,26(18):2289-2297.
[7] Wagner A H,Anand V N,Wang W H,et al.Exon-level expression profiling of ocular tissues[J].Experimental eye research,2013,111:105-111.
[8] Li Y,Xu J Z.Discovering disease-genes by topological features in human protein-protein interaction network[J].Bioinformatics,2006,22(22):2800-2805.
[9] Zhou Z H.Learning with unlabeled data and its application to image retrieval[M].PRICAI 2006:Trends in Artificial Intelligence.Springer Berlin Heidelberg,2006.
[10] Trapnel C,Pachter L,Salzberg S L.TopHat: discovering splice junctions with RNA-Seq[J].Bioinformatics,2009,25(9):1105-1111.
[11] Trapnel C,Williams B A,Pertea G,et al.Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation[J].Nature biotechnology,2010,28(5):511-515.
[12] Joachims T.Making large scale SVM learning practical[R].Advances in kernel methods:support vector learning,1999.
[13] Joachims T.Transductive inference for text classification using support vector machines[C]//ICML,1999,99:200-209.
PRIORITISATION MODEL FOR RETINAL PATHOGENIC GENES BASED ON TRANSDUCTIVE LEARNING
Dong ChaoWang Xiaogang
(ShanghaiKeyLabofIntelligentInformationProcessing,SchoolofComputerScienceandTechnolgy,FudanUniversity,Shanghai200000,China)
AbstractOne of the major goals of biological science is to help people understand disease process, heritability and potential treatment in depth. However, it is usually a daunting job to discover the pathogenic genes, such as some inherited ocular diseases. On the basis of colligating numerous collected gene expression data, we presented a two-layer transductive machine learning (TTP) model used for finding potential retinal pathogenic genes. Its inner layer is in charge of gaining contribution degrees from multiple-dimensional features profile of Human BodyMap 2.0 and ocular tissues gene spectrum separately. In outer layer learning, the contribution degree obtained by inner layer will learn together with Crx and ChIP-Seq data to derive the prioritisation of the pathogenic genes. Experimental results showed that the transductive learning method did perform better than the traditional supervised learning method in accuracy on predicting pathogenic genes. In addition, an interesting finding was that the data integration was not always helpful.
KeywordsTransductive learningPathogenic genes predictionMachine learningIntegration
收稿日期:2014-12-18。國家自然科學基金項目(61472086)。董超,碩士生,主研領(lǐng)域:生物信息學,數(shù)據(jù)挖掘。王小剛,碩士生。
中圖分類號TP3
文獻標識碼A
DOI:10.3969/j.issn.1000-386x.2016.05.008