田偵 郭茂祖
摘要:近年來,基于基因本體比較基因之間的功能相似度成為一個研究熱點。當(dāng)前,基因功能相似度計算方法可以分為2種類型:逐對(pair-wise)比較法和成組(group-wise)比較法。然而,由于基因本體注釋數(shù)據(jù)的豐度問題,造成大量的基因具有相同的本體注釋數(shù)據(jù),從而導(dǎo)致基因功能相似度計算方法的結(jié)果存在偏差。本文提出一種改進的基因功能相似度計算方法,對注釋集合的語義信息量進行歸一化,達(dá)到準(zhǔn)確度量基因之間的功能相似度的目的。實驗結(jié)果表明:本文提出的方法可以消除相同注釋對基因功能相似度計算方法的影響,且在測試平臺上獲得非常優(yōu)秀的結(jié)果。
關(guān)鍵詞: 基因本體; 基因功能相似度; 相同注釋; 相似度歸一化
中圖分類號: TP391.41
文獻(xiàn)標(biāo)志碼: A
文章編號: 2095-2163(2017)05-0123-04
Abstract: In recent years, comparing the functional similarity of genes based on Gene Ontology has become a research hotspot. Currently, gene functional similarity calculation methods can be mainly divided into two types: pairwise approaches and groupwise approaches. However, due to the abundance of annotation data of genes, large number of genes has the identical ontology annotation, resulting in the deviation of results for these gene functional similarity calculation methods. This paper proposes an improved method for measuring the functional similarity of genes. The semantic information content of the annotated term set is normalized for the sake of measuring the functional similarity between genes more accurately. The experimental results show that the proposed method can eliminate the influence of the identical annotation on gene functional similarity calculation methods, and obtain a very good performance on the test platform.
Keywords: Gene Ontology; gene functional similarity; identical annotation; similarity normalization
0引言
基因本體(Gene Ontology,GO)聯(lián)合會建立的數(shù)據(jù)庫,其目標(biāo)是能夠滿足跨數(shù)據(jù)庫對基因和基因產(chǎn)物進行一致描述。GO是一個標(biāo)準(zhǔn)化、精確定義和控制(controlled vocabulary)的詞匯庫。當(dāng)前,主要包括3個本體子結(jié)構(gòu):細(xì)胞成分(Cellular Component,CC)、分子功能(Molecular Function,MF)和生物過程(Biological Process,BP)[1]。3種子結(jié)構(gòu)之間彼此是獨立的,也就是說可以從BP、CC和MF三個方面對基因進行描述。
在后基因組時代,基于基因本體比較和分析基因之間的功能相似性,具有重要的研究意義[2]。當(dāng)前,基因功能相似度的計算方法已經(jīng)在各種研究中得到廣泛的應(yīng)用,例如蛋白質(zhì)相互作用預(yù)測[3-4]、蛋白質(zhì)復(fù)合體識別[5-6]以及基因功能預(yù)測[7]、網(wǎng)絡(luò)預(yù)測(network prediction)[8]、疾病基因優(yōu)先排序(disease gene prioritization)[9-10]等。基于基因本體和基因的功能注釋數(shù)據(jù),分析和比較基因之間的功能相似度,受到越來越多的關(guān)注。
1研究方法綜述
近年來,研究人員提出許多基于基因本體的計算基因功能相似性的方法[11-15]。整體上這些方法可以分為兩大類:逐對(pair-wise)比較法和成組(group-wise)比較法[16]。前者重點關(guān)注術(shù)語對之間的關(guān)系,即首先計算術(shù)語對之間的語義相似度,然后整合術(shù)語對之間的語義相似度,從而得到基因之間的功能相似度;后者則從術(shù)語集合的角度出發(fā),借助術(shù)語集合的語義相似度計算基因之間的功能相似度[17]。接下來將簡單回顧這2種方法的研究發(fā)展歷程。
[BT5]1.1逐對比較法
逐對比較法度量基因的功能相似性時,整體上可以分為2步。第一步計算GO術(shù)語之間的語義相似性;第二步將術(shù)語之間的語義相似性整合,最終獲得基因之間的功能相似性。計算術(shù)語之間語義相似性方法有3種類型:基于點(node-based)方法、基于邊(ege-based)方法和混合(hybrid)法。Resnik[18]在計算2個術(shù)語的語義相似度時,利用2個術(shù)語的最有信息公共祖先(most informative common ancestor,MICA)的語義信息量,作為二者的語義相似度。有時最有信息公共祖先也稱最低公共祖先節(jié)點(lowest common ancestor, LCA)。由于該方法相對簡單,在實際的計算過程中發(fā)現(xiàn),該方法會導(dǎo)致很多術(shù)語之間的語義相似度相同。后來,Jiang[13]及Lin[19] 在計算2個術(shù)語的語義相似度時,不僅考慮術(shù)語的最有公共祖先節(jié)點,還考慮2個術(shù)語自身的語義信息,分別提出各自的方法。上述這些方法均存在“淺注釋”(shallow annotation)的問題,即距離根節(jié)點較近的2個術(shù)語節(jié)點也可能獲得較高的語義相似度。Couto[20]通過考慮術(shù)語所有祖先節(jié)點的語義信息量,而不是最有信息公共祖先節(jié)點的語義信息量來計算術(shù)語之間的語義相似度。該方法的計算復(fù)雜度相對較高,在術(shù)語節(jié)點的子結(jié)構(gòu)(subgraph)簡單時,實驗結(jié)果不夠突出?;谶叺姆椒ㄍㄟ^計算連接2個術(shù)語邊的特性來計算術(shù)語之間的相似度。Pekar[21]利用最有信息祖先節(jié)點到根節(jié)點的距離以及術(shù)語分別到最有信息祖先節(jié)點距離,計算術(shù)語之間的語義相似度。但是該方法沒有考慮到本體結(jié)構(gòu)中語義關(guān)系的傳遞性,而是將其設(shè)定為同等看待。Cheng [22]將術(shù)語距離葉節(jié)點的距離引入語義相似度計算中。研究指出節(jié)點距離葉節(jié)點越近,其特異性越強,語義信息量越大。Wang[23]提出了綜合計算的方法,提出語義貢獻(xiàn)因子(semantic contribution factor)的概念。過程中既考慮術(shù)語的語義信息有一部分要通過語義關(guān)系傳遞給子孫節(jié)點,又考慮了在傳遞過程中,不同語義傳遞的強度不同。由此,最終提出既考慮術(shù)語節(jié)點本身、又考慮語義關(guān)系的綜合計算方法。Othman[24]等考慮術(shù)語關(guān)系所在區(qū)域的連接密度、節(jié)點之間語義信息量差異以及節(jié)點的深度等信息,計算術(shù)語之間的語義相似度。endprint
[BT5]1.2成組比較法
成組比較法將基因的GO注釋術(shù)語看成一個整體,也就說從集合的角度分析2個注釋集合的相似度,從而得到基因之間的功能相似度。成組比較法又有3種常見的類型[16]:基于集合(set-based)方法、基于圖方法和基于向量的方法。其中,基于集合的方法將基因的所有術(shù)語注釋作為一個集合,用傳統(tǒng)的集合之間的相似度作為基因之間的功能相似度。Gentleman [15]利用2個集合之間交集和并集的比率作為2個集合的相似度;方法simGIC[25]將術(shù)語的語義信息量引入到集合內(nèi)。該方法主要通過計算集合并集的語義信息量和集合交集的語義信息量,而后綜合求得集合之間的相似度。Teng則發(fā)現(xiàn)方法simGIC在計算術(shù)語集合語義信息量時,存在重復(fù)計算的問題,因此Teng[17]提出SORA方法,更加準(zhǔn)確度量術(shù)語集合的語義相似度,從而提高基因功能相似度計算方法的效果?;趫D的方法利用基因本體結(jié)構(gòu)和基因的所有注釋術(shù)語,獲取這些注釋術(shù)語的圖形結(jié)構(gòu);通過圖形比對方法,計算2個圖形之間的相似度作為基因之間的功能相似度?;谙蛄康姆椒ㄊ紫葘⒒虻男g(shù)語集合按照一定順序,表示成0-1向量(如果基因被該位置的術(shù)語注釋,則用1表示,反之亦然);用2個向量之間的余弦相似度作為2個基因之間的功能相似度。這些方法在文章[26]中已經(jīng)得到詳細(xì)的探討論述。
2問題描述
近年來,雖然基因本體數(shù)據(jù)庫獲得了巨大的發(fā)展,基因功能注釋數(shù)據(jù)也越來越豐富,科研人員可以獲得更為豐富的生物數(shù)據(jù)。然而,當(dāng)前對基因的本體注釋信息還是存在一定的問題。其中,最突出的一個問題就是相同注釋(identical annotation)問題。該問題可以簡單描述為:當(dāng)2個基因具有相同的基因功能注釋信息,基因功能相似度的計算出現(xiàn)偏差(bias)。表1列舉了基因相同注釋在4種模式生物中的情況,這些數(shù)據(jù)均來自于最新的Uniprot-GOA數(shù)據(jù)庫(http://www.ebi.ac.uk/GOA/downloads)。
而對于基因功能相似度計算方法來說,只要2個基因具有相同功能注釋,那么二者的基因功能相似度就為1.0,顯然這樣是不合理的。目前,對不同生物的研究程度不同,從而導(dǎo)致對某些基因的功能注釋信息較少;另一方面,研究相對成熟的基因也可能具有相同的功能注釋信息。因此,對于這2種情況的相同注釋問題應(yīng)該區(qū)別對待。從表1中可以看出,相同注釋在各個物種的功能注釋數(shù)據(jù)庫中普遍存在,在酵母和老鼠的功能注釋數(shù)據(jù)庫中,相同注釋出現(xiàn)的頻率非常高。所以,改進基因功能相似度計算方法去克服相同注釋是非常必要的。
圖1具體描述了相同注釋對于基因功能相似度計算方法的影響。在圖1中,基因1(gene1)和基因2(gene2)分別被3個相同的GO注釋,分別是GO1、GO2和GO3;基因3(gene3)和基因4(gene4)分別被3個相同的GO注釋,分別是GO4、GO5、GO6。如果采用GIC[25]方法,那么基因1和基因2的功能相似度為1.0,而基因3和基因4的功能相似度也為1.0。顯然,不同基因之間的這種相同注釋,會造成明顯的誤差,存在一定的不合理性。這是因為當(dāng)前對基因1、基因2、基因3和基因4研究的詳細(xì)程度各有不同而造成的。
表2總共包含3種本體類型的12組實驗。其中,本文提出的方法(SimGICNorm)在MF的Seq實驗、BP的Seq實驗和CC的Pfam、Seq實驗中分別獲得了第一,實驗結(jié)果分別為0.670 2、0.797 6、0.512 5和0.736 4。與之對應(yīng)的SimGIC方法在MF的ECC和Pfam實驗中獲得了第一名,實驗結(jié)果分別為0.587 4和0.582 4。除此之外,Lin方法在3組實驗中獲得第一名,而Resnik方法和SimUI方法也分別獲得了2組第一和1組第一。表2中最好的實驗結(jié)果用粗體表示。
從上述結(jié)果中可以看出,本文提出的方法在Seq度量指標(biāo)上的性能非常出色,說明該方法和基因的序列相似性保持高度一致;由于本文提出的方法對基因之間的功能相似度進行歸一化操作,因此可以有效克服相同注釋對相似度計算結(jié)果的影響,從而使得該方法在CESSM測試平臺上獲得了較好的實驗結(jié)果。
5結(jié)束語
基于基因本體和基因功能注釋數(shù)據(jù),計算基因之間的功能相似度具有重要的研究意義。與基因的結(jié)構(gòu)相似度和序列相似度類似,功能相似度可以從一個全新的角度理解基因之間的關(guān)系。本文針對基因的相同注釋問題提出一種改進的方法,從而準(zhǔn)確度量基因之間的功能相似度。該方法主要基于術(shù)語注釋集合,使用統(tǒng)一的相似度歸一化操作,從而使基因功能相似度計算方法可以區(qū)分不同的相同注釋,最終提高計算方法的效果。具體的實驗結(jié)果表明,本文提出的改進方法在CESSM平臺上獲得非常出色的實驗結(jié)果,從而證實本文提出方法的有效性和合理性。
參考文獻(xiàn)
ASHBURNER M, BALL C A, BLAKE J A, et al. Gene Ontology: Tool for the unification of biology[J]. Nature genetics, 2000, 25(1): 25-29.
[2] MALLADI V S, ERICKSON D T, PPDDUTURI N R, et al. Ontology application and use at the ENCODE DCC[J]. Database, 2015, 2015:bav010.
[3] BRAMEIER M, WIUF C. Coclustering and visualization of gene expression data and gene ontology terms for Saccharomyces cerevisiae using selforganizing maps[J]. Journal of biomedical informatics, 2007, 40(2): 160-173.endprint
[4] YANG Da, LI Yanhui, XIAO Hui, et al. Gaining confidence in biological interpretation of the microarray data: The functional consistence of the significant GO categories[J]. Bioinformatics, 2008, 24(2): 265-271.
[5] KING A D, PRULJ N, JURISICA I. Protein complex prediction via costbased clustering[J]. Bioinformatics, 2004, 20(17): 3013-3120.
[6] WU Xiaomei, ZHU Lei, GUO Jie, et al. Prediction of yeast proteinprotein interaction network: Insights from the Gene Ontology and annotations[J]. Nucleic acids research, 2006, 34(7): 2137-2150.
[7] [JP3]MI Huaiyu, HUANG Xiaosong, MURUGANUJAN A, et al. PANTHER version 11: Expanded annotation data from Gene Ontology and Reactome pathways, and data analysis tool enhancements[J]. Nucleic acids research, 2017, 45:D183-189.[JP]
[8] LEE P H, LEE D. Modularized learning of genetic interaction networks from biological annotations and mRNA expression data[J]. Bioinformatics, 2005, 21(11): 2739-2747.
[9] CHENG Liang, LI Jie, JU Peng, et al. SemFunSim: A new method for measuring disease similarity by integrating semantic and gene functional association[J]. PLoS One,2014,9(6):e99415.
[10]TRANCHEVENT L C, ARDESHIRDAVANI A, ELSHAL S, et al. Candidate gene prioritization with Endeavour[J]. Nucleic acids research, 2016, 44(W1): W117-W21.
[11]XU Yungang, GUO Maozu, SHI Wenli, et al. A novel insight into Gene Ontology semantic similarity[J]. Genomics, 2013, 101(6): 368-375.
[12]SCHLICKER A, DOMINGUES F S, RAHNENFHRER J, et al. A new measure for functional similarity of gene products based on Gene Ontology[J]. BMC bioinformatics, 2006, 7:302.
[13]JIANG J J, CONRATH D W. Semantic similarity based on corpus statistics and lexical taxonomy[J]. arXiv preprint cmp-lg/9709008, 1997.
[14]PESQUITA C, FARIA D, BSATOS H, et al. Metrics for GO based protein semantic similarity: A systematic evaluation[J]. BMC bioinformatics, 2008, 9(S5):S4.
[15]GENTLEMAN R, CAREY V J, HUBER W, et al. Bioinformatics and computational biology solutions using R and Bioconductor[M]//Statistics for Biology and Health. NewYork: Springer Science & Business Media, 2005:388-389.
[16]PESQUITA C, FARIA D, FALCO A O, et al. Semantic similarity in biomedical ontologies[J]. PLoS computational biology, 2009, 5(7): e1000443.
[17]TENG Zhixia, GUO Maozu, LIU Xiaoyan, et al. Measuring gene functional similarity based on groupwise comparison of GO terms[J]. Bioinformatics, 2013, 29(11): 1424-1432.endprint
[18]RESNIK P. Semantic similarity in a taxonomy: An informationbased measure and its application to problems of ambiguity in natural language[J]. Journal of Artifical Intelligence Research, 1999, 11:95-130.
[19]LIN Dekang. An informationtheoretic definition of similarity[C]//ICML '98 Proceedings of the Fifteenth International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1998: 296-304.
[20]COUTO F M, SILVA M J, COUTINHO P M. Semantic similarity over the gene ontology: Family correlation and selecting disjunctive ancestors[C]//CIKM '05 Proceedings of the 14th ACM international conference on Information and knowledge management.Bremen, Germany: ACM, 2005: 343-344.
[21]PEKAR V, STAAB S. Taxonomy learning: Factoring the structure of a taxonomy into a semantic classification decision[C]//COLING '02 Proceedings of the 19th international conference on Computational linguistics. Taipei: ACM, 2002: 1-7.
[22]CHENG J, CLINE M, MARTIN J, et al. A knowledgebased clustering algorithm driven by gene ontology[J]. Journal of biopharmaceutical statistics, 2004, 14(3): 687-700.
[23]WANG J Z, DU Z, PAYATTAKOOL R, et al. A new method to measure the semantic similarity of GO terms[J]. Bioinformatics, 2007, 23(10): 1274-1281.
[24]OTHMAN R M, DERIS S, ILLIAS R M. A genetic similarity algorithm for searching the Gene Ontology terms and annotating anonymous protein sequences[J]. Journal of biomedical informatics, 2008, 41(1): 65-81.
[25]PESQUITA C, FARIA D, BASTOS H, et al. Evaluating GObased semantic similarity measures[C]//Proceedings of 10th Annual BioOntologies Meeting. [S.l.]: ISCB, 2007: 37-40.
[26]MAZANDU G K, CHIMUSA E R, MULDER N J. Gene ontology semantic similarity tools: Survey on features and challenges for biological knowledge discovery[J]. Briefings in bioinformatics, 2016: bbw067.
[27]PESQUITA C, PESSOA D, FARIA D, et al. CESSM: Collaborative evaluation of semantic similarity measures[J]. JB2009: Challenges in Bioinformatics, 2009, 157(190):1-5.endprint