• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于寬進(jìn)嚴(yán)出策略的可靠蛋白質(zhì)互作預(yù)測框架模型

      2014-04-29 00:50:36楊雷唐降龍

      楊雷 唐降龍

      摘要:蛋白質(zhì)互作可用來研究細(xì)胞過程、分子功能和人類相關(guān)疾病。高通量的生物學(xué)實(shí)驗(yàn)提供的蛋白質(zhì)互作數(shù)據(jù)含有大量的錯(cuò)誤和缺失,可用計(jì)算方法加以完善。針對單一的計(jì)算方法預(yù)測蛋白質(zhì)互作遇到的準(zhǔn)確性波動(dòng)問題,本文提出一種基于寬進(jìn)嚴(yán)出策略獲取可靠蛋白質(zhì)互作的框架模型。根據(jù)設(shè)置的使用原則,該框架模型可以整合多種計(jì)算方法,共同對抗原始互作數(shù)據(jù)集中存在的噪聲數(shù)據(jù)干擾,以及單一計(jì)算方法應(yīng)用的生物學(xué)背景知識偏差?;谠摽蚣苣P皖A(yù)測的蛋白質(zhì)互作具有多重生物學(xué)意義,提高了預(yù)測的可靠性和穩(wěn)定性。

      關(guān)鍵詞:蛋白質(zhì)互作; 框架模型; 方法整合; 可靠預(yù)測

      中圖分類號:TP39141 文獻(xiàn)標(biāo)識碼:A文章編號:2095-2163(2014)04-0050-04

      Abstract:Protein-protein interactions can provide insight in the studying of cellular processes, molecular functions and human diseases. Protein interactions derived from biological experiments contain numerous noise and deficient data, which can be improved by computational approaches. A framework model based on loose in and strict out strategy is proposed to predict reliable protein interactions, overcoming the problem of accuracy fluctuation based on a single predicting method. According to applied rules of the framework model, it can integrate various computational approaches to confront the interference of noise from original datasets and the deviation of the applied basic of biological knowledge together. Protein interaction predictions oriented from the framework own multiply biological significance, producing the improvement of the reliability and stability.

      Key words:Protein-protein Interaction; Framework Model; Approach Integration; Reliable Predictions

      0引言

      對于每一種生物而言,蛋白質(zhì)是生物功能的主要體現(xiàn)者,其相互之間均以一種明確設(shè)定的方式相互作用來協(xié)調(diào)幾乎所有的細(xì)胞過程,以獲得相對完整的蛋白質(zhì)互作映射,同時(shí)構(gòu)建一個(gè)或若干個(gè)蛋白質(zhì)互作網(wǎng)絡(luò),實(shí)現(xiàn)從系統(tǒng)水平上直觀可見地研究組織功能,進(jìn)而發(fā)現(xiàn)人類疾病的致病機(jī)理并尋找基因治療的藥物靶點(diǎn)[1]。迄今為止,高通量的生物學(xué)實(shí)驗(yàn)技術(shù)則為蛋白質(zhì)互作提供了相應(yīng)的數(shù)據(jù)基礎(chǔ),雖然其中的大部分互作數(shù)據(jù)準(zhǔn)確可靠,但不同物種之間的互作數(shù)據(jù)在質(zhì)量和數(shù)量上卻仍然存在較大差別。例如酵母的互作數(shù)據(jù)相對完整,而人類的缺口則較大;尤其是,在已有的數(shù)據(jù)中還會(huì)包含著數(shù)量不等的錯(cuò)誤互作。基于以上分析,為了克服生物學(xué)實(shí)驗(yàn)方法勞動(dòng)量大、花費(fèi)高、費(fèi)時(shí)多和數(shù)據(jù)冗余等缺點(diǎn),研究引入了計(jì)算方法以修補(bǔ)互作數(shù)據(jù)。目前,針對已有的蛋白質(zhì)互作數(shù)據(jù)和不同的生物學(xué)背景知識或假設(shè),已經(jīng)設(shè)計(jì)了大量的計(jì)算方法[2]。但卻有許多計(jì)算方法面臨著如下三個(gè)問題的困擾,具體表述為:

      (1)健壯性。同一種計(jì)算方法基于不同物種、特征和數(shù)量的互作數(shù)據(jù)集時(shí),預(yù)測結(jié)果的穩(wěn)定性波動(dòng)較大,尤其在原始蛋白質(zhì)互作網(wǎng)絡(luò)中存在假陽性互作干擾的情況下。

      (2)可信性。計(jì)算方法是基于某種生物學(xué)知識或假設(shè)對蛋白質(zhì)互作進(jìn)行預(yù)測或評估,這些生物學(xué)背景可能只是針對特別的物種和某種特征的數(shù)據(jù)集合保持有效,而對另外一些數(shù)據(jù)卻會(huì)失去效用,也就是其預(yù)測結(jié)果只是在一定程度上才能成立。

      (3)可執(zhí)行性。通常,計(jì)算方法在使用時(shí)要設(shè)置參數(shù),有時(shí)還要根據(jù)數(shù)據(jù)集的具體情況調(diào)整設(shè)置,使用起來相對復(fù)雜。

      例如,有一類計(jì)算方法根據(jù)遺傳信息的相似性來預(yù)測蛋白質(zhì)互作。即由蛋白質(zhì)A和B互作,而蛋白質(zhì)B與C遺傳信息相似,則即可推斷蛋白質(zhì)A與C趨向互作。但在推斷該結(jié)論時(shí)卻可能遭遇如下問題:

      (1)這個(gè)生物學(xué)假設(shè)未必成立,正如蛋白質(zhì)復(fù)合物中的蛋白質(zhì)傾向發(fā)生互作,但在復(fù)合物中的每對蛋白質(zhì)之間卻不一定都能表現(xiàn)為互作。

      (2)假如當(dāng)這個(gè)生物學(xué)背景知識成立時(shí),那么蛋白質(zhì)B與C要在多大程度上相似才可做出如上推斷,卻還沒有找到統(tǒng)一標(biāo)準(zhǔn),而且也會(huì)難于確定。

      (3)如果蛋白質(zhì)A與B是假陽性互作,那么推斷出的蛋白質(zhì)A與C在很大程度上也可能是假陽性互作。通常而言,相似度是一個(gè)設(shè)定的閾值,若其設(shè)定值較高,則預(yù)測標(biāo)準(zhǔn)也較為嚴(yán)格,對原始數(shù)據(jù)要求亦會(huì)較高,預(yù)測的互作數(shù)量較少但可信度卻會(huì)很高;反之,則預(yù)測的互作數(shù)量較大而假陽性互作也會(huì)較多。相應(yīng)于以上問題的出現(xiàn),本文即提出一種能夠獲取蛋白質(zhì)可靠互作預(yù)測的框架模型。

      1預(yù)測可靠互作的框架模型

      1.1整合多種方法模式第4期楊雷,等:基于寬進(jìn)嚴(yán)出策略的可靠蛋白質(zhì)互作預(yù)測框架模型智能計(jì)算機(jī)與應(yīng)用第4卷

      為了保證生物學(xué)背景知識或假設(shè)對已知數(shù)據(jù)集的準(zhǔn)確可靠性,可以采用引入或結(jié)合多種生物學(xué)知識的方法,現(xiàn)給出兩種主要模式,具體如圖1所示。其中,圖1(a)表示基于已知蛋白質(zhì)互作數(shù)據(jù)集,采用一種計(jì)算方法,而引入多個(gè)生物學(xué)知識或特征信息,并在滿足背景知識時(shí)即可產(chǎn)生預(yù)測集合。圖1 (b)則表示分別采用多種計(jì)算方法產(chǎn)生一個(gè)預(yù)測候選集合,又針對候選集合引入多個(gè)評估方法,而當(dāng)滿足所有評估方法時(shí),將會(huì)確定最終的預(yù)測集合。這兩種模式產(chǎn)生的蛋白質(zhì)互作均已滿足多種生物學(xué)背景知識,且其預(yù)測可靠性也較高。但是,兩種模式卻也存在著一定的缺點(diǎn)。圖1(a)的模式要滿足多種生物學(xué)知識,也要確定各個(gè)背景知識之間的關(guān)聯(lián)關(guān)系,具體操作較為復(fù)雜;同時(shí),適應(yīng)不同特征的互作數(shù)據(jù)集性能也會(huì)較差,容易產(chǎn)生預(yù)測過擬合,并導(dǎo)致預(yù)測困難。而圖1(b)的模式用于產(chǎn)生預(yù)測候選集合雖然并不困難,但在滿足多種評估方法時(shí)卻會(huì)容易去除真陽性互作;而且,多種方法如何組合也仍然需要更為詳細(xì)而深入的研究探討。

      1.2寬進(jìn)嚴(yán)出框架模型

      本文建立的寬進(jìn)嚴(yán)出框架模型是基于圖1(b)模式并施以限定條件的改進(jìn),即在產(chǎn)生候選集合中只選用一種預(yù)測方法,而在評估候選集合時(shí)則需根據(jù)預(yù)測候選集合的可靠性,選擇一到四種評估方法。而且,基于已知的蛋白質(zhì)互作數(shù)據(jù),該模型的運(yùn)行實(shí)現(xiàn)則可分為如下兩步:

      (1)寬進(jìn)。首先基于某種生物學(xué)知識或假設(shè)產(chǎn)生預(yù)測候選集合,并在預(yù)測的過程中適當(dāng)放寬方法限定,包括方法中的閾值參數(shù),以利于產(chǎn)生數(shù)量相對較多的蛋白質(zhì)互作。寬進(jìn)步驟可以有針對性地簡化預(yù)測方法,達(dá)到使用簡便的目的。

      (2)嚴(yán)出。采用一個(gè)或多個(gè)生物學(xué)知識或假設(shè)的評估辦法,設(shè)置相對嚴(yán)格的過濾限定閾值參數(shù),對預(yù)測候選集合進(jìn)行篩選。這樣獲得的預(yù)測結(jié)果即會(huì)同時(shí)滿足多個(gè)生物學(xué)意義要求,從而達(dá)到預(yù)測結(jié)果可信的目的。

      寬進(jìn)嚴(yán)出框架是一個(gè)通用的策略模型,可以組合多種計(jì)算方法來預(yù)測蛋白質(zhì)互作。根據(jù)預(yù)測方法所采用的生物學(xué)背景知識或假設(shè)的可靠性程度,可將其分為四個(gè)等級,即優(yōu)、良、中和差。其中,對于預(yù)測可靠程度較高的互作,即可采用較少的評估方法進(jìn)行修正;反之,則需要采用較多的評估方法予以修正。因此,對于每種可靠等級產(chǎn)生的預(yù)測,就需要引入數(shù)量不等的評估方法以確保預(yù)測結(jié)果的準(zhǔn)確性,具體實(shí)現(xiàn)如圖2所示。雖然評估方法越多,產(chǎn)生的蛋白質(zhì)互作預(yù)測越可靠,但卻并不能過多采用,因?yàn)檫@樣極易去除真陽性互作。通過預(yù)測方法的可靠性評級,而且結(jié)合適量的評估方法,即能獲取高可靠的蛋白質(zhì)互作。

      2寬進(jìn)嚴(yán)出框架的使用原則

      在使用寬進(jìn)嚴(yán)出框架模型前,首先要確定預(yù)測蛋白質(zhì)互作方法的可靠性等級,然后根據(jù)可靠性等級選擇評估方法的數(shù)量。而且,通過預(yù)測方法所采用的生物學(xué)背景知識,所有計(jì)算方法預(yù)測都將分配在前三個(gè)可靠等級中。當(dāng)?shù)鞍踪|(zhì)互作原始數(shù)據(jù)的可靠性稍弱時(shí),計(jì)算方法的預(yù)測級別就會(huì)隨之降低一級;也就是說,只要作為基礎(chǔ)的互作數(shù)據(jù)相對可靠,所采用的評估方法將不會(huì)超過三個(gè)。另一方面,采用評估方法的數(shù)量也與預(yù)測方法中的閾值設(shè)定有關(guān)。如果預(yù)測方法中設(shè)置了較嚴(yán)格的閾值,那么可靠性級別就會(huì)提高,從而減少選擇評估方法的數(shù)量;反之,則會(huì)增加評估方法的選擇數(shù)目。通常,為了避免評估方法選擇和使用的復(fù)雜性,其數(shù)量一般不會(huì)超過四個(gè)。

      在確定預(yù)測方法后,選擇評估方法時(shí)則要遵循一個(gè)重要原則:預(yù)測方法和評估方法之間要滿足兼容性,而評估方法之間則要滿足互補(bǔ)性。如果評估方法和預(yù)測方法不兼容,那么修正預(yù)測的互作時(shí),評估方法就會(huì)將預(yù)測互作的大部分施以去除處理。如果用兩種預(yù)測交疊率極低的方法相互驗(yàn)證,就幾乎不會(huì)產(chǎn)生任何互作結(jié)果。因此,在使用寬進(jìn)嚴(yán)出框架預(yù)測蛋白質(zhì)互作前,就需要知道每種預(yù)測方法所依據(jù)的知識或假設(shè)的可信強(qiáng)度,以及使用方法所涉及的信息和適用范圍。

      3基于寬進(jìn)嚴(yán)出框架的預(yù)測和評估方法綜述

      在使用寬進(jìn)嚴(yán)出框架預(yù)測蛋白質(zhì)互作前,首先要確定每種預(yù)測方法基于知識或假設(shè)的可信強(qiáng)度,然后確定方法之間的兼容性和互作性。而在時(shí)下的眾多文獻(xiàn)中,預(yù)測蛋白質(zhì)互作方法分類卻有所不同,例如在文獻(xiàn)[3]中,從結(jié)構(gòu)、基因組和生物學(xué)相關(guān)性三方面實(shí)現(xiàn)了分類。根據(jù)這三種分類,本文即將預(yù)測可信強(qiáng)度劃分為與之對應(yīng)的一到三級,分別是基于結(jié)構(gòu)的互作預(yù)測可信度為優(yōu),基于基因信息的預(yù)測方法為良,其它的基于生物學(xué)知識方法則為中。圖3就隨之列舉了寬進(jìn)嚴(yán)出策略模型的使用實(shí)例。

      3.1預(yù)測方法的可靠等級

      在預(yù)測互作部分中,基于結(jié)構(gòu)[4](structures)和域[5](domains)的方法可信級別為優(yōu),基于序列(sequence)信息(包括基因比對,基因簽名和基因融合等)[6]和共進(jìn)化[7](co-evolution)可信級別為良,而基于拓?fù)浣Y(jié)構(gòu)屬性[8](topology)可信級別則為中。而機(jī)器學(xué)習(xí)方法即可以用這些生物學(xué)知識作為特征,利用已知互作數(shù)據(jù)作為訓(xùn)練集進(jìn)行預(yù)測。例如,Bayesian網(wǎng)絡(luò)[9]、馬爾科夫模型方法[10]、隨機(jī)森林決策[11]和支持向量機(jī)[12]等。

      3.2評估方法的兼容性

      在評估蛋白質(zhì)互作過程中,上面提到的生物學(xué)知識、假設(shè)和機(jī)器學(xué)習(xí)方法也可以用來評估。除此以外,生物學(xué)的可靠性測度還包括:分子功能和細(xì)胞位置[13]、基因本體論(GO)術(shù)語注釋[14]、蛋白質(zhì)復(fù)合物[15]和基因表達(dá)[16];網(wǎng)絡(luò)拓?fù)錅y度更包括:局部測度IG1[17],IG2[18]和聚類系數(shù)[19],表達(dá)功能一致性的鄰居測度CD-Dist[20]和FSWeight[21],路徑替換測度IRAP[22]。只是每種評估方法都有其對應(yīng)的局限性和適用范圍,即一定的針對性。比如,GO注釋幾乎兼容大部分預(yù)測方法,但本身注釋并不完全;基因共表達(dá)方法并不適用于對直接物理互作的評估;而蛋白質(zhì)復(fù)合物評估方法與酵母雙雜交方法獲得的蛋白質(zhì)互作交集很小,也不能混用。通常情況,拓?fù)漕惙椒ㄅc其它生物學(xué)方法兼容性較好,因此可以選擇性使用。

      4結(jié)束語

      為了獲取高質(zhì)量的蛋白質(zhì)互作預(yù)測,本文提出了一種基于寬進(jìn)嚴(yán)出策略的預(yù)測蛋白質(zhì)互作的框架模型。該框架模型提供了一種可以整合多種計(jì)算方法預(yù)測互作的原則,即要滿足方法間的兼容性和互補(bǔ)性。在使用該框架時(shí),根據(jù)計(jì)算方法的預(yù)測背景知識進(jìn)行可信度分級,以此為依據(jù)選擇評估方法的類型和數(shù)量。在基于已知互作數(shù)據(jù)預(yù)測時(shí),多個(gè)方法可以同時(shí)發(fā)揮作用,其優(yōu)點(diǎn)表現(xiàn)在:

      (1)每種方法均可以進(jìn)行簡化,根據(jù)自己的角色放寬或加強(qiáng)參數(shù)設(shè)置。

      (2)多個(gè)方法共同對抗原始互作數(shù)據(jù)集中存在的噪聲,達(dá)到預(yù)測穩(wěn)定。

      (3)預(yù)測結(jié)果滿足多種生物學(xué)意義,更加可靠。

      在文獻(xiàn)[23]中,其預(yù)測蛋白質(zhì)互作的實(shí)質(zhì)采用了寬進(jìn)嚴(yán)出框架模型。在寬進(jìn)步驟中,應(yīng)用團(tuán)(極大完全子網(wǎng))預(yù)測蛋白質(zhì)互作,而在嚴(yán)出步驟使用GO術(shù)語進(jìn)行評估修正。由于團(tuán)的結(jié)構(gòu)極為嚴(yán)格,并且在閾值選擇上采用了最高限度(僅差一邊),所以可靠等級為優(yōu)。預(yù)測過程比較簡單,結(jié)果可靠,能夠克服拓?fù)浞椒A(yù)測的不穩(wěn)定問題。從另一方面講,該框架模型以犧牲預(yù)測的數(shù)量來換取預(yù)測的準(zhǔn)確性,這種犧牲對于計(jì)算方法補(bǔ)充實(shí)驗(yàn)方法獲得的互作數(shù)據(jù)是值得的。

      參考文獻(xiàn):

      [1]SCHRATTENHOLZ A,SOSKIC V.What does systems biology mean for drug development? [J]Current Medicinal Chemistry, 2008,15(15):1520-1528.

      [2]THEOFILATOS K A,DIMITRAKOPOULOS C M,TSAKALIDIS A K,et al.Computational approaches for the prediction of protein-protein interactions: a survey [J].Current Bioinformatics, 2011,6(4):398-414.

      [3]SKRABANEK L,SAINI H K,BADER G D,et al.Computational prediction of protein-protein interactions [J].Molecular Biotechnology, 2008,38(1):1-17.

      [4]ALOY P,BOTTCHER B,CEULEMANS H,et al.Structure-based assembly of protein complexes in yeast [J].Science, 2004,303(5666):2026-2029.

      [5]NYE T M W,BERZUINI C,GILKS W R,et al.Statistical analysis of domains in interacting protein pairs [J].Bioinformatics, 2005,21(7):993-1001.

      [6]MARCOTTE E M,PELLEGRINI M,NG H L,et al. Detecting protein function and protein-protein interactions from genome sequences [J].Science,1999,285(5428):751-753.

      [7]LEWIS A C F,SAEED R,DEANE C M.Predicting protein-protein interactions in the context of protein evolution [J].Molecular Biosystems,2010,6(1):55-64.

      [8]LIU G M,LI J Y,WONG L S.Assessing and predicting protein interactions using both local and global network topological metrics [J].Genome Informatics,2008,21:138-149.

      [9]ASTHANA S,KING O D,GIBBONS F D,et al.Predicting protein complex membership using probabilistic network reliability [J].Genome Research, 2004,14(6):1170-1175.

      [10]LETOVSKY S,KASIF S.Predicting protein function from protein/protein interaction data: a probabilistic approach [J].Bioinformatics, 2003,19:i197-i204.

      [11]QI Y J,KLEIN-SEETHARAMAN J,BAR-JOSEPH Z.Random forest similarity for protein-protein interaction prediction from multiple sources [J].Pacific Symposium on Biocomputing, 2005,2005:531-542.

      [12]BEN-HUR A,NOBLE W S.Kernel methods for predicting protein-protein interactions [J].Bioinformatics,2005,21:I38-I46.

      [13]PARK B,HAN K.A reliability measure of protein-protein interactions and a reliability measure-based search engin [J].Computer Methods in Biomechanics and Biomedical Engineering, 2009,13(1):97-104.

      [14]MAHDAVI M A,LIN Y H.False positive reduction in protein-protein interaction predictions using gene ontology annotations [J].Bmc Bioinformatics, 2007, 8:262.

      [15]EDWARDS A M,KUS B,JANSEN R,et al.Bridging structural biology and genomics: assessing protein interaction data with known complexes [J].Trends in Genetics,2002,18(10):529-536.

      [16]YANO K.Improved prediction of protein interaction from microarray data using asymmetric correlation [J].Proceedings of the International Conference on Computational Science (Iccs), 2011,4:1072-1081.

      [17]SAITO R,SUZUKI H,HAYASHIZAKI Y.Interaction generality, a measurement to assess the reliability of a protein-protein interaction [J].Nucleic Acids Research, 2002,30(5):1163-1168.

      [18]SAITO R,SUZUKI H,HAYASHIZAKI Y.Construction of reliable protein-protein interaction networks with a new interaction generality measure [J].Bioinformatics, 2003,19(6):756-763.

      [19]GOLDBERG D S,ROTH F P.Assessing experimentally derived interactions in a small world [J].Proceedings of the National Academy of Sciences of the United States of America,2003,100(8):4372-4376.

      [20]BRUN C,CHEVENET F,MARTIN D,et al.Functional classification of proteins for the prediction of cellular function from a protein-protein interaction network [J].Genome Biology,2004, 5(1):R6.

      [21]CHUA H N,SUNG W K,WONG L.Exploiting indirect neighbours and topological weight to predict protein function from protein-protein interactions [J].Bioinformatics, 2006,22(13):1623-1630.

      [22]CHEN J,HSU W,LEE M L,et al.Increasing confidence of protein interactomes using network topological metrics [J].Bioinformatics, 2006,22(16):1998-2004.

      [23]YANG L,TANG X L.Protein-protein interactions prediction based on iterative clique extension with gene ontology filtering [J].The Scientific World Journal,2014,2014:523-634.

      鹤壁市| 成武县| 墨江| 封开县| 兴化市| 鸡西市| 车致| 宣城市| 柳林县| 个旧市| 日照市| 涞源县| 岑溪市| 哈尔滨市| 贵南县| 兖州市| 宁夏| 台南市| 周口市| 宁强县| 城固县| 会东县| 宣恩县| 高雄市| 大石桥市| 高要市| 竹溪县| 兴安县| 和政县| 武乡县| 霍邱县| 公安县| 沈阳市| 双峰县| 许昌县| 廊坊市| 富裕县| 永新县| 驻马店市| 伊宁市| 永仁县|