• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于網(wǎng)絡(luò)拓?fù)浜投喾N生物信息融合的關(guān)鍵蛋白質(zhì)識別算法

      2023-01-16 05:03:40盧鵬麗陳云天
      蘭州理工大學(xué)學(xué)報 2022年6期
      關(guān)鍵詞:網(wǎng)絡(luò)拓?fù)?/a>復(fù)合物關(guān)鍵

      盧鵬麗, 陳云天

      (蘭州理工大學(xué) 計算機與通信學(xué)院, 甘肅 蘭州 730050)

      關(guān)鍵蛋白質(zhì)是指通過基因剔除式突變將其移除后,造成生物體相關(guān)功能缺失,如衰竭、異常生長或喪失生命力的蛋白質(zhì)[1].關(guān)鍵蛋白質(zhì)的準(zhǔn)確鑒定和分析,對生物學(xué)進化、疾病的預(yù)防和新藥物的研發(fā)有著重要意義[2].在生物醫(yī)學(xué)中,依靠生物實驗識別關(guān)鍵蛋白質(zhì)的方法有單基因敲除[3]、RNA干擾和條件基因敲除[4].通過生物學(xué)實驗預(yù)測關(guān)鍵蛋白質(zhì)雖然成果有效且準(zhǔn)確性高,但是需要耗費大量的成本和資源.

      由于“中心性-致死性”[5]的提出,許多中心性方法[6]被用于關(guān)鍵蛋白質(zhì)的識別.目前基于蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPI)拓?fù)涮匦蕴岢龅闹行男运惴ò?度中心性(DC)通過計算鄰居節(jié)點的個數(shù)判斷節(jié)點的重要性[7];介數(shù)中心性(BC)通過經(jīng)過該節(jié)點最短路徑的數(shù)目判斷其重要性,如果BC值較高,說明該節(jié)點對整個網(wǎng)絡(luò)信息傳輸產(chǎn)生的影響較大,節(jié)點處于關(guān)鍵樞紐位置[8];子圖中心性(SC)通過網(wǎng)絡(luò)局部特征分析節(jié)點重要性[9];特征向量中心性(EC)表明節(jié)點重要性不僅依賴于鄰居節(jié)點的數(shù)量,而且與每一個鄰居的重要性也有關(guān)[10];局部平均度(LAC)考慮了節(jié)點在誘導(dǎo)子圖中的特性[11];網(wǎng)絡(luò)中心性(NC)基于邊聚類系數(shù),通過復(fù)雜的連邊關(guān)系判斷節(jié)點重要性[12].

      僅依賴網(wǎng)絡(luò)節(jié)點的拓?fù)涮匦圆蛔阋詼?zhǔn)確地識別關(guān)鍵蛋白質(zhì),不少研究者利用生物信息來提高識別關(guān)鍵蛋白質(zhì)的準(zhǔn)確率[13].目前用于識別關(guān)鍵蛋白質(zhì)的生物信息包括蛋白質(zhì)的基因本體論[14]、亞細(xì)胞定位[15]、基因表達序列[16]和蛋白質(zhì)復(fù)合物信息[17]等.隨后提出了一系列結(jié)合生物信息的識別方法.如GEG方法同時利用了語義相似性和基因表達序列來豐富蛋白質(zhì)的信息[18].聯(lián)合復(fù)合物中心性(UC)考慮了蛋白質(zhì)出現(xiàn)在不同蛋白質(zhì)復(fù)合物中的頻率,并結(jié)合了邊聚類系數(shù)提升識別的準(zhǔn)確率[17].局部相互作用密度中心性(LIDC)基于網(wǎng)絡(luò)拓?fù)浜蛷?fù)合物信息[19].PEC和WDC都基于邊聚類系數(shù)和基因表達序列[20-21]來識別關(guān)鍵蛋白質(zhì).

      本文基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和多源生物信息提出了關(guān)鍵蛋白質(zhì)識別算法.首先,通過考慮節(jié)點自身特性以及節(jié)點與鄰居節(jié)點間存在的三角形個數(shù)來衡量網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)對節(jié)點的影響,當(dāng)?shù)鞍踪|(zhì)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)不能區(qū)分蛋白質(zhì)的關(guān)鍵性時,考慮蛋白質(zhì)的生物特性.本文根據(jù)不同亞細(xì)胞中的蛋白質(zhì)參與不同生命活動這一特性[22],計算亞細(xì)胞定位分值,利用亞細(xì)胞定位分值為每個蛋白質(zhì)賦予權(quán)值,提出了SNC(subcell_nodecentrality)方法.經(jīng)過分析,發(fā)現(xiàn)網(wǎng)絡(luò)中一些結(jié)構(gòu)為星型的蛋白質(zhì)的SNC值為零,為更準(zhǔn)確地區(qū)分蛋白質(zhì)節(jié)點的關(guān)鍵性,將復(fù)合物信息與亞細(xì)胞定位信息相結(jié)合提出了SIDC(subcell_indegree centrality)方法.最后,通過賦予不同比重的SNC和SIDC,提出了CTB(combinationtopology_bioinformation)算法來實現(xiàn)網(wǎng)絡(luò)拓?fù)渑c多源信息融合去識別關(guān)鍵蛋白質(zhì).比重的賦予是通過分析網(wǎng)絡(luò)的局部拓?fù)浣Y(jié)構(gòu),按照鄰居間是否存在連邊,將節(jié)點劃分為三角形類Ttype(鄰居間存在連邊)和星型類Stype(鄰居間不存在連邊)兩種,最終計算Ttype類型的節(jié)點在網(wǎng)絡(luò)中的占比來賦予比重.文中所對比的九種算法中,前六種僅依賴網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),忽略了蛋白質(zhì)自身攜帶的生物屬性.算法PEC和WDC僅使用一種生物信息,結(jié)果不夠精確.相比于問題中涉及到的對比算法,本文提出的CTB算法有兩方面優(yōu)勢:一方面,從網(wǎng)絡(luò)拓?fù)涑霭l(fā),解決了部分蛋白質(zhì)由于自身結(jié)構(gòu)特殊導(dǎo)致不可對其進行關(guān)鍵性判斷的問題;另一方面,通過融合生物信息,解決了當(dāng)?shù)鞍踪|(zhì)擁有相同拓?fù)浣Y(jié)構(gòu)而不能明確區(qū)分其關(guān)鍵性的問題.為了評估CTB算法的性能,在YDIP、YMIPS和Krogan三種蛋白質(zhì)網(wǎng)絡(luò)數(shù)據(jù)集上進行實驗,通過與已有的九種算法(BC、DC、SC、LAC、EC、UC、NC、PEC和WDC)進行對比,實驗結(jié)果表明CTB算法能夠更有效地識別關(guān)鍵蛋白質(zhì).

      1 相關(guān)工作

      1.1 預(yù)備知識

      蛋白質(zhì)相互作用網(wǎng)絡(luò)可以看作是一個簡單圖G(V,E),其中V(G)={v1,v2,…,vn}表示頂點集,E(G)={e1,e2,…,em}表示邊集,圖G的頂點數(shù)n=|V(G)|,邊數(shù)e=|E(G)|.Z(u,v)表示由u、v及其公共鄰居節(jié)點形成的三角形的數(shù)量.蛋白質(zhì)對應(yīng)圖中的頂點,蛋白質(zhì)之間的相互作用對應(yīng)圖中的邊.dv表示節(jié)點v的度,記作dv=|Nv|,Nv表示節(jié)點v的鄰居集合.

      1.2 已有方法

      (1) 度中心性DC(degree centrality)[7]:

      (2) 介數(shù)中心性BC(betweenness centrality)[8]:

      其中:σst是指從節(jié)點s出發(fā)到達終止節(jié)點t的最短路徑數(shù)目;σst(v)表示從節(jié)點s出發(fā)到達終止節(jié)點t,且通過節(jié)點v的最短路徑數(shù)目.

      (3) 特征向量中心性EC(eigenvector centrality)[10]:

      EC(v)=αmax(v)

      其中:αmax是對應(yīng)于網(wǎng)絡(luò)鄰接矩陣的最大特征值λmax的特征向量;αmax(v)是αmax的第v個分量.

      (4) 網(wǎng)絡(luò)中心性NC(network centrality)[12]:

      (5) 聯(lián)合復(fù)合物中心性UC(united complex centrality )[17]:

      其中:fu表示節(jié)點u在不同復(fù)合物中出現(xiàn)的次數(shù);fM表示蛋白質(zhì)節(jié)點在復(fù)合物中出現(xiàn)的最大次數(shù).

      2 本文提出的算法

      2.1 SNC算法

      通過綜合衡量節(jié)點自身在網(wǎng)絡(luò)中的拓?fù)涮匦砸约班従庸?jié)點之間的復(fù)雜連邊關(guān)系,提出了點-邊中心性方法NAEC.該方法考慮了節(jié)點間緊密程度,且利用節(jié)點與其鄰居節(jié)點間構(gòu)成的三角形個數(shù)來量化節(jié)點間邊的重要性,具有更全面的拓?fù)涮卣?公式如下:

      其中:E(v)表示節(jié)點v的鄰居節(jié)點間實際具有的邊數(shù).一個節(jié)點的NAEC(v)值越大,則表示節(jié)點v與鄰居節(jié)點間的連接更緊密,進一步表明節(jié)點越傾向于形成高度連接的簇,更有可能成為關(guān)鍵的蛋白質(zhì).

      亞細(xì)胞定位信息是指定位生物大分子如蛋白質(zhì)在細(xì)胞內(nèi)的存在的具體位置.生物體中存在十一種亞細(xì)胞,不同亞細(xì)胞中的蛋白質(zhì)功能不同,因而蛋白質(zhì)的重要程度也不同.出現(xiàn)在越多亞細(xì)胞中的蛋白質(zhì)表明它參與越多的生物進程,成為關(guān)鍵蛋白質(zhì)的概率更大.亞細(xì)胞定位分值(subcellular score,SC)作為一種衡量蛋白質(zhì)關(guān)鍵性的測度指標(biāo),由下式計算得出:

      其中:SC(i)表示蛋白質(zhì)網(wǎng)絡(luò)中的所有節(jié)點出現(xiàn)在第i個亞細(xì)胞中的數(shù)目,i∈{1,2,3,…,11};SCtotal表示整個網(wǎng)絡(luò)中的所有節(jié)點出現(xiàn)在11種亞細(xì)胞中的總數(shù).

      若兩個蛋白質(zhì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)相同,則其對應(yīng)NAEC值相同,因此不能區(qū)分其重要性.文中提出SNC采用網(wǎng)絡(luò)拓?fù)涮匦耘c亞細(xì)胞定位信息相融合的方式來解決這一問題.若兩個蛋白質(zhì)網(wǎng)絡(luò)結(jié)構(gòu)相同,可通過SC得到對應(yīng)的蛋白質(zhì)亞細(xì)胞定位分值,從而提升識別關(guān)鍵蛋白質(zhì)的準(zhǔn)確率,公式如下:

      SNC(v)=SC(v)*NAEC(v)

      2.2 SIDC算法

      通過對網(wǎng)絡(luò)結(jié)構(gòu)進行分析,發(fā)現(xiàn)網(wǎng)絡(luò)中一些結(jié)構(gòu)為星型的蛋白質(zhì)的SNC值為零,為更準(zhǔn)確地區(qū)分蛋白質(zhì)節(jié)點的關(guān)鍵性,將復(fù)合物信息與亞細(xì)胞定位信息相結(jié)合提出了SIDC方法.該方法不僅考慮了蛋白質(zhì)在復(fù)合物中的局部度中心性以及出現(xiàn)頻率,也考慮了蛋白質(zhì)在亞細(xì)胞定位信息中的全局屬性.由于復(fù)合物中的蛋白質(zhì)是可以在相同時間和空間上相互協(xié)作特定功能的蛋白質(zhì),本文結(jié)合蛋白質(zhì)在復(fù)合物中子集中的特性,更加全面地挖掘蛋白質(zhì)的生物特性.公式如下:

      其中:ComplexSet(v)表示所有包含蛋白質(zhì)v的復(fù)合物子集;In-Degree(v)i表示蛋白質(zhì)v在第i個復(fù)合物中的度值,定義為

      In-Degree(v)i=DC(v)i

      DC(v)i是蛋白質(zhì)v在第i個復(fù)合物中的度值.利用復(fù)合物構(gòu)成的社團結(jié)構(gòu)中節(jié)點較網(wǎng)絡(luò)全局節(jié)點更加稠密這一特性,可以提升度中心性的性能.

      2.3 CTB算法

      為了實現(xiàn)網(wǎng)絡(luò)拓?fù)渑c多源生物信息的融合,將不同比重的SNC與SIDC方法相結(jié)合提出了關(guān)鍵蛋白質(zhì)識別算法CTB.為合理分配兩種方法的比重,基于節(jié)點的局部拓?fù)浣Y(jié)構(gòu),按照鄰居節(jié)點間是否存在連邊將蛋白質(zhì)節(jié)點分為三角形類Ttype和星型類Stype兩類.通過計算兩種類型蛋白質(zhì)在網(wǎng)絡(luò)中的占比來獲得參數(shù),若網(wǎng)絡(luò)中Ttype類蛋白質(zhì)數(shù)量多,則SNC算法對應(yīng)的參數(shù)值較大,即SNC算法更能影響蛋白質(zhì)的關(guān)鍵性,反之SIDC更能影響蛋白質(zhì)的關(guān)鍵性.CTB算法表示如下:

      其中:SNCmax表示SNC(v)的最大值;SIDCmax表示SIDC(v)的最大值.在YDIP、YMIPS和Krogan這三種不同的網(wǎng)絡(luò)中,三角形類Ttype和星型類Stype的蛋白質(zhì)占比不同,分別對應(yīng)不同的β值.β的值由如下公式得到:

      其中:|Ttype|表示網(wǎng)絡(luò)中三角形類Ttype蛋白質(zhì)的數(shù)量;n表示網(wǎng)絡(luò)中的蛋白質(zhì)總數(shù).

      3 實驗結(jié)果與分析

      3.1 實驗數(shù)據(jù)來源

      (1) PPI網(wǎng)絡(luò)數(shù)據(jù):選擇相對完整可靠的蛋白質(zhì)相互作用網(wǎng)絡(luò)作為實驗數(shù)據(jù),包括YDIP[24]、YMIPS[25]和Krogan[26].通過去除重邊和自相互作用后,得到的網(wǎng)絡(luò)數(shù)據(jù)如表1所列.

      表1 蛋白質(zhì)網(wǎng)絡(luò)YDIP、YMIPS和KroganTab.1 The PPI network YDIP、YMIPS、Krogan

      (2) 標(biāo)準(zhǔn)關(guān)鍵蛋白質(zhì)數(shù)據(jù):來自數(shù)據(jù)集MIPS[25]、SGD[27]、DEG[28]和SGDP[1].

      (3) 蛋白質(zhì)復(fù)合物信息:選擇來自CM270[25]、CM425[29]、CYC408[30]和CYC428[31]的745個蛋白質(zhì)復(fù)合物子集.

      (4) 亞細(xì)胞定位信息:下載自COMPARTMENTS數(shù)據(jù)庫,包含11種亞細(xì)胞定位信息[32].

      3.2 評估對比分析

      3.2.1使用六種評估方法對比分析

      為了評估算法的性能,首先通過CTB算法判斷蛋白質(zhì)的重要性并降序排列,選取前20%的蛋白質(zhì)作為候選關(guān)鍵蛋白質(zhì),剩余的80%作為候選非關(guān)鍵蛋白質(zhì).通過對比標(biāo)準(zhǔn)關(guān)鍵蛋白質(zhì)數(shù)據(jù),可以得到候選關(guān)鍵蛋白質(zhì)中被正確識別為關(guān)鍵蛋白質(zhì)的數(shù)目.使用了六種評估方法,包括準(zhǔn)確率(ACC)、F-度量(F-measure)、陽性預(yù)測值(positive predictive value,PPV)、陰性預(yù)測值(negative predictive value,NPV)、敏感度(sensitivity,SN)和特異性(specificity,SP),計算方式如下:

      其中:真正例(TP,true positive)指候選關(guān)鍵蛋白質(zhì)中被正確識別為關(guān)鍵蛋白質(zhì)的數(shù)目;假正例(FP,false positive)指候選非關(guān)鍵蛋白質(zhì)被錯誤識別為關(guān)鍵蛋白質(zhì)的數(shù)目;假反例(FN,false negative)指候選關(guān)鍵蛋白質(zhì)被錯誤識別為非關(guān)鍵蛋白質(zhì);真反例(TN,true negative)指候選非關(guān)鍵蛋白質(zhì)被正確識別為非關(guān)鍵蛋白質(zhì)的數(shù)目.

      以上六種統(tǒng)計指標(biāo)可以綜合評估CTB的性能,若算法對應(yīng)的指標(biāo)值越大,說明算法性能越優(yōu).通過對比BC、DC、SC、LAC、EC、UC、NC、PEC和WDC九種方法評估算法性能,實驗結(jié)果見表2,結(jié)果表明CTB算法的六項評估指標(biāo)均優(yōu)于其他方法.

      表2 六種統(tǒng)計指標(biāo)對比結(jié)果Tab.2 Comparison results of six statistical indicators

      3.2.2關(guān)鍵蛋白質(zhì)識別數(shù)目比較

      在YDIP、YMIPS和Krogan三種蛋白質(zhì)網(wǎng)絡(luò)上實現(xiàn)了BC、DC、SC、LAC、EC、UC、NC、PEC、WDC和CTB算法,并將網(wǎng)絡(luò)中的蛋白質(zhì)按照其重要性排序.選取前100~600的蛋白質(zhì)作為候選集,再對比標(biāo)準(zhǔn)關(guān)鍵蛋白質(zhì),得出候選關(guān)鍵蛋白質(zhì)中真正的關(guān)鍵蛋白質(zhì)數(shù)量,實驗結(jié)果如圖1~3所示,圖中橫坐標(biāo)1~10分別代表DC、BC、EC、SC、LAC、NC、UC、PEC、WDC和CTB算法.

      圖1 CTB與已有算法在YMIPS網(wǎng)絡(luò)中的對比Fig.1 Comparison of CTB and existing algorithms in YMIPS networks

      圖2 CTB與已有算法在YDIP網(wǎng)絡(luò)中的對比Fig.2 Comparison of CTB and existing algorithms in YDIP networks

      圖3 CTB與已有算法在Krogan網(wǎng)絡(luò)中的對比Fig.3 Comparison of CTB and existing algorithms in Krogan networks

      CTB算法識別出真正的關(guān)鍵蛋白質(zhì)數(shù)量明顯多于其他算法,尤其在YMIPS網(wǎng)絡(luò)中,CTB在前600個候選蛋白質(zhì)中,正確識別出337個關(guān)鍵蛋白質(zhì),較PEC算法多出118個.因而,CTB算法具備更高效準(zhǔn)確的性能.

      3.2.3參數(shù)β和亞細(xì)胞定位信息對算法的影響

      本文提出的算法CTB受到參數(shù)β和亞細(xì)胞定位信息的影響,本節(jié)分析這兩種因素對算法CTB性能的影響.將不含參數(shù)β的CTB算法記作CTB-1,將不考慮亞細(xì)胞定位信息的CTB算法記作CTB-2,將不含參數(shù)、亞細(xì)胞定位信息的CTB算法記作CTB-3.在Krogan、YDIP和YMIPS網(wǎng)絡(luò)中,選取前100~600候選關(guān)鍵蛋白質(zhì),對比CTB、CTB-1、CTB-2、CTB-3的性能,實驗結(jié)果如圖4所示.

      圖4 參數(shù)及亞細(xì)胞定位信息的影響Fig.4 The influence of parameters and subcellular localization information

      由實驗結(jié)果可以看出,融合亞細(xì)胞定位信息且考慮到參數(shù)影響后,算法CTB的性能較其他三種情況有明顯提升.

      3.2.4P-R曲線評估

      查準(zhǔn)率(Precision)-查全率(Recall)曲線(P-R曲線)的x軸代表查全率,y軸代表查準(zhǔn)率.該評估方法中,曲線越高,表明算法性能越優(yōu).本文在三種網(wǎng)絡(luò)上利用精準(zhǔn)召回曲線比較算法的性能,實驗結(jié)果如圖5所示.在三種網(wǎng)絡(luò)中,由CTB算法計算得到的P-R曲線均高于其他九種方法,表明CTB算法的性能優(yōu)于其他算法.查全率和查準(zhǔn)率計算方式如下:

      圖5 P-R曲線在三種網(wǎng)絡(luò)中的對比Fig.5 Comparison of P-R curves in three networks

      4 結(jié)論

      關(guān)鍵蛋白質(zhì)的研究能夠促進生物醫(yī)學(xué)的發(fā)展.為更加準(zhǔn)確地識別關(guān)鍵蛋白質(zhì),首先考慮節(jié)點自身及其復(fù)雜的連邊關(guān)系來表征網(wǎng)絡(luò)的拓?fù)涮匦?并結(jié)合亞細(xì)胞定位信息,提出了SNC方法.為更好地區(qū)分蛋白質(zhì)節(jié)點的關(guān)鍵性,將復(fù)合物信息與亞細(xì)胞定位信息相結(jié)合提出了SIDC方法.最后,通過不同比重的SNC和SIDC方法來實現(xiàn)網(wǎng)絡(luò)拓?fù)渑c多源信息融合,提出了CTB算法來識別關(guān)鍵蛋白質(zhì).本文選用YMIPS、YDIP和Krogan三種蛋白質(zhì)網(wǎng)絡(luò)數(shù)據(jù),運用多種評估方法與已有算法BC、DC、SC、LAC、EC、UC、NC、PEC和WDC進行對比,實驗結(jié)果表明,CTB算法識別蛋白質(zhì)的性能高于已有的九種識別方法,能夠有效提高識別關(guān)鍵蛋白質(zhì)的準(zhǔn)確率.

      猜你喜歡
      網(wǎng)絡(luò)拓?fù)?/a>復(fù)合物關(guān)鍵
      基于通聯(lián)關(guān)系的通信網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)方法
      高考考好是關(guān)鍵
      BeXY、MgXY(X、Y=F、Cl、Br)與ClF3和ClOF3形成復(fù)合物的理論研究
      電子制作(2018年23期)2018-12-26 01:01:16
      柚皮素磷脂復(fù)合物的制備和表征
      中成藥(2018年7期)2018-08-04 06:04:18
      黃芩苷-小檗堿復(fù)合物的形成規(guī)律
      中成藥(2018年3期)2018-05-07 13:34:18
      勞斯萊斯古斯特與魅影網(wǎng)絡(luò)拓?fù)鋱D
      電測與儀表(2016年5期)2016-04-22 01:13:46
      獲勝關(guān)鍵
      NBA特刊(2014年7期)2014-04-29 00:44:03
      生意無大小,關(guān)鍵是怎么做?
      中國商人(2013年1期)2013-12-04 08:52:52
      五莲县| 漳州市| 浦东新区| 公主岭市| 温宿县| 安西县| 云林县| 称多县| 五指山市| 定兴县| 崇文区| 汾西县| 乐业县| 谢通门县| 桓仁| 和龙市| 华容县| 武宣县| 合山市| 阳山县| 额济纳旗| 垫江县| 攀枝花市| 成安县| 长沙市| 湖口县| 榆中县| 甘谷县| 合阳县| 鄂伦春自治旗| 五家渠市| 抚松县| 澜沧| 衡水市| 大城县| 宜丰县| 任丘市| 长泰县| 恩平市| 晋城| 全南县|