• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于蛋白質(zhì)結(jié)構(gòu)域特異性的關(guān)鍵蛋白質(zhì)識別算法*

      2020-03-04 05:19:12楊増光
      計算機與數(shù)字工程 2020年1期
      關(guān)鍵詞:非關(guān)鍵結(jié)構(gòu)域關(guān)鍵

      楊増光

      (南京理工大學(xué) 南京 210094)

      1 引言

      眾所周知,蛋白質(zhì)(Protein)在細(xì)胞的組成和生物體的生命活動中扮演著極其重要的作用。但不同類型的蛋白質(zhì)對生物體的重要程度不盡相同,其中那些缺失后會導(dǎo)致生物體病變甚至死亡的蛋白質(zhì)被稱為關(guān)鍵蛋白質(zhì)(essential proteins),其余的則被稱為非關(guān)鍵蛋白質(zhì)(non-essential proteins)[1~3]。

      研究表明,關(guān)鍵蛋白質(zhì)的識別對于我們了解細(xì)胞的生長調(diào)控過程,研究生物進(jìn)化的相關(guān)機制,以及根據(jù)關(guān)鍵蛋白質(zhì)進(jìn)行藥物設(shè)計、藥物標(biāo)靶鑒定和疾病治療等方面具有著不可忽視的現(xiàn)實意義[4]。

      在生物學(xué)領(lǐng)域中,識別關(guān)鍵蛋白質(zhì)通常是采用生物醫(yī)學(xué)實驗的方式進(jìn)行的,這類方法雖然準(zhǔn)確,但是成本高、效率低,無法適用于日益增長的蛋白質(zhì)數(shù)據(jù)。隨著高通量技術(shù)的發(fā)展,越來越多的蛋白質(zhì)相互作用數(shù)據(jù)被獲取,這讓我們能夠從網(wǎng)絡(luò)水平上識別關(guān)鍵蛋白質(zhì)。

      目前,越來越多的研究人員將圖論、復(fù)雜網(wǎng)絡(luò)等相關(guān)知識應(yīng)用到蛋白質(zhì)網(wǎng)絡(luò)中,并提出多種有效的方法來識別關(guān)鍵蛋白質(zhì),其中常用的有8種具有代表性的算法:DC[5]、BC[6]、CC[7]、SC[8]、EC[9]、IC[10]、LAC[11]、NC[12]。這些算法雖然能夠有效地識別出關(guān)鍵蛋白質(zhì),但是由于這類算法容易受到網(wǎng)絡(luò)中假陰性和假陽性數(shù)據(jù)的影響且忽略了蛋白質(zhì)網(wǎng)絡(luò)蘊含的生物信息,因而它們的識別精度不高。

      本文,我們提出一種基于蛋白質(zhì)結(jié)構(gòu)域特異性的關(guān)鍵蛋白質(zhì)識別算法Do-ECC,通過融合蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)湫畔⒑蜕镄畔?,能夠有效提高關(guān)鍵蛋白質(zhì)的識別準(zhǔn)確度。

      2 邊聚集系數(shù)

      為充分利用蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)湫畔?,首先需要尋找一個有效的拓?fù)涮卣鳌Q芯勘砻?,關(guān)鍵蛋白質(zhì)更可能和關(guān)鍵蛋白質(zhì)相連,并且成簇出現(xiàn),而非關(guān)鍵蛋白質(zhì)則表現(xiàn)稀疏,即關(guān)鍵蛋白質(zhì)在網(wǎng)絡(luò)中所處的位置相比于非關(guān)鍵蛋白質(zhì)擁有更高的連通度和模塊化程度[11~12]?;诖耍絹碓蕉嗟难芯咳藛T開始使用邊聚集系數(shù)作為描述蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮卣鱽黹_展自己的研究,實驗結(jié)果也表明,這一特征確實能夠更全面、更準(zhǔn)確地描述蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)湫畔ⅰ?/p>

      對網(wǎng)絡(luò)中的任一條邊,邊聚集系數(shù)被定義為該邊在網(wǎng)絡(luò)中實際參與構(gòu)成的三角形個數(shù)與該邊最多可能參與構(gòu)成的三角形個數(shù)之比。如對于邊E(u,v),其邊聚集系數(shù)可表示為

      其中zu,v表示網(wǎng)絡(luò)中該邊實際參與構(gòu)成的三角形的個數(shù),ku和kv分別表示節(jié)點u和v的度,則表示該邊最多可能參與構(gòu)成的三角形的個數(shù)。不難看出,邊聚集系數(shù)的取值介于0~1之間。對于任一條邊,其邊聚集系數(shù)越大,表明其參與網(wǎng)絡(luò)模塊結(jié)構(gòu)的比重越多,在網(wǎng)絡(luò)中所處位置的聚集程度也越高。

      3 蛋白質(zhì)結(jié)構(gòu)域特異性

      大多數(shù)蛋白質(zhì)通常是由一個或者多個功能區(qū)域組成,這些區(qū)域一般被稱為蛋白質(zhì)結(jié)構(gòu)域(Protein Domain),是蛋白質(zhì)結(jié)構(gòu)和功能的基本單位。而在自然界中,復(fù)雜的蛋白質(zhì)分子則是由這些結(jié)構(gòu)域通過不同的組合和重排形成的。研究表明,那些在生物體中出現(xiàn)頻率較少的結(jié)構(gòu)域?qū)τ谏矬w具有更加關(guān)鍵的作用;另一方面,包含較多結(jié)構(gòu)域的蛋白質(zhì)分子,通常執(zhí)行更多的生物功能,對正常的生命活動更加重要,也更有可能是關(guān)鍵蛋白質(zhì)[13]。

      3.1 TF-IDF算法

      在信息檢索、文本分類等相關(guān)領(lǐng)域,TF-IDF(Term Frequency-Inverse Document Frequency),即“詞頻-逆文本頻率”,是一種常用的加權(quán)技術(shù),用以評估一個單詞對于文本和語料庫的區(qū)分能力與重要程度。

      其中TF(Term Frequency),即詞頻,是指一個單詞在一個文本中出現(xiàn)的頻率,通常表示為這個單詞在文本中出現(xiàn)的次數(shù)和該文本包含的單詞的總數(shù)之比,即:

      其中,ni,j表示單詞i文本 j中出現(xiàn)的次數(shù),k表示文本 j包含的單詞類型的數(shù)目,則表示該文本包含的單詞的總數(shù)。

      IDF(Inverse Document Frequency),即逆文本頻率的概念,對于一個單詞,它是指整個語料庫中包含該單詞的文本的數(shù)量,通常表示為先計算語料庫的文本總數(shù)和包含該單詞的文本數(shù)之比,然后取對數(shù),即:

      而TF-IDF就是通過結(jié)合兩者,用來評估一個單詞對于文本和語料庫的區(qū)分能力與重要程度,通常表示為

      根據(jù)上述定義,可以發(fā)現(xiàn),一個單詞的重要性和區(qū)分能力隨著它在文本中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在整個語料庫中出現(xiàn)的頻率成反比下降。

      3.2 結(jié)構(gòu)域特異性

      借鑒TF-IDF算法的思想,我們對蛋白質(zhì)結(jié)構(gòu)域進(jìn)行重新審視。如果將每種類型的結(jié)構(gòu)域都當(dāng)作一個單詞,那么每條蛋白質(zhì)就相當(dāng)于一個文本文件,而整個生物體包含的所有蛋白質(zhì)就組成了一個語料庫。如圖1所示,如果將PF00270、PF00271等幾種結(jié)構(gòu)域視作一種單詞,則蛋白質(zhì)YER172C、YBL084C、YDL126C的“文本”組成可以表示如圖1所示。

      根據(jù)IDF的定義,本文提出了IPF(Inverse Protein Frequency)的概念,來描述蛋白質(zhì)結(jié)構(gòu)域的特異性,即由生物體包含的蛋白質(zhì)總數(shù)除以包含該結(jié)構(gòu)域的蛋白質(zhì)數(shù)目,再將得到的商數(shù)取對數(shù),如下所示:

      圖1 蛋白質(zhì)的結(jié)構(gòu)域組成示意圖

      同理,根據(jù)TF的定義,本文提出DF(Domain Frequency)的概念,指一個結(jié)構(gòu)域在一個蛋白質(zhì)分子中出現(xiàn)的頻率,表示為這個結(jié)構(gòu)域在特定蛋白質(zhì)分子中出現(xiàn)的次數(shù)和該蛋白質(zhì)包含的結(jié)構(gòu)域的總數(shù)之比,即:

      其中,nd,p表示蛋白質(zhì)結(jié)構(gòu)域d在蛋白質(zhì)分子 p中出現(xiàn)的頻次,k表示蛋白質(zhì)分子 p包含的結(jié)構(gòu)域種類數(shù),則表示蛋白質(zhì)分子 p包含的結(jié)構(gòu)域的總數(shù)。

      3.3 蛋白質(zhì)的結(jié)構(gòu)域特異性得分

      參照TF-IDF的定義,本文給出DF-IPF的概念。對于結(jié)構(gòu)域d,其特異性為IPFd,在蛋白質(zhì) p中出現(xiàn)的頻率為DFd,p,則它對應(yīng)的DF-IPF值可以表示如下:

      它可以用于描述一個結(jié)構(gòu)域d對蛋白質(zhì) p的重要程度,也可以用于度量蛋白質(zhì) p基于結(jié)構(gòu)域d獲得的特異性得分。而一個蛋白質(zhì)可能包含多種類型的結(jié)構(gòu)域,則其總的結(jié)構(gòu)域特異性得分可以表示為

      其中,k表示蛋白質(zhì) p包含的結(jié)構(gòu)域的種類。

      4 Do-ECC算法

      如上所述,邊聚集系數(shù)能夠描述蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)湫畔?,蛋白質(zhì)的結(jié)構(gòu)域特異性得分則反映了蛋白質(zhì)網(wǎng)絡(luò)蘊含的生物信息。本文,我們通過融合這兩種特征,提出一種新的關(guān)鍵蛋白質(zhì)識別算法Do-ECC。

      為方便介紹,首先對蛋白質(zhì)網(wǎng)絡(luò)進(jìn)行建模,將其表示成一個無向圖G(V ,E ),如對于存在相互作用的兩個蛋白質(zhì)分子,可以將這兩個蛋白質(zhì)分別表示為節(jié)點u和v,而將它們間的相互作用表示邊E(u ,v )。

      根據(jù)上述定義,對于相互作用E(u ,v) ,其邊聚集系數(shù)可以表示為ECC(u ,v)。為能夠和結(jié)構(gòu)域信息進(jìn)行融合,需對ECC(u ,v)進(jìn)行歸一化處理,表示為

      其中,ECCMAX和ECCMIN分別表示所有相互作用的邊聚集系數(shù)的最大值和最小值。

      對于蛋白質(zhì)節(jié)點u,它的結(jié)構(gòu)域特異性得分可以表示為Spec()u,同樣需要進(jìn)行歸一化處理,表示為

      其中,SpecMAX和SpecMIN分別表示所有蛋白質(zhì)分子的結(jié)構(gòu)域特異性得分的最大值和最小值。同理,對于蛋白質(zhì)節(jié)點v,其歸一化處理后的結(jié)構(gòu)域特異性得分可以表示為SpecNORM()v。

      研究表明,蛋白質(zhì)的關(guān)鍵性和蛋白質(zhì)分子間的相互作用存在密切關(guān)系,因此我們可以通過相互作用的兩個蛋白質(zhì)的結(jié)構(gòu)域特異性計算出這條相互作用的特異性。如對相互作用E(u ,v) ,其結(jié)構(gòu)域特異性得分取決于它對應(yīng)的兩個蛋白質(zhì)分子u和v,可以表示為

      Do-ECC算法就是通過結(jié)合兩者來評估蛋白質(zhì)的關(guān)鍵性,如對蛋白質(zhì)節(jié)點u,其關(guān)鍵性得分可以表示為

      其中Nv是節(jié)點u的鄰居節(jié)點的集合,v是節(jié)點u的鄰居節(jié)點且v∈Nv。蛋白質(zhì)節(jié)點的關(guān)鍵性得分越高,越可能是關(guān)鍵蛋白質(zhì)。

      5 實驗

      5.1 實驗數(shù)據(jù)

      1)蛋白質(zhì)相互作用數(shù)據(jù)

      鑒于酵母的蛋白質(zhì)相互作用數(shù)據(jù)的相對完備性,本實驗選擇酵母作為研究對象。所用的蛋白質(zhì)相互作用數(shù)據(jù)是從DIP數(shù)據(jù)庫[14]下載獲得,采用的數(shù)據(jù)集版本是2017年2月5日更新的釀酒酵母的全部蛋白質(zhì)相互作用數(shù)據(jù)集。原始數(shù)據(jù)集中包含22977條蛋白質(zhì)相互作用,去除自連接和重復(fù)的相互作用后,共提取出22620條相互作用,包含5126個蛋白質(zhì)分子。

      2)蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)

      本實驗所用到的蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)是從PFAM數(shù)據(jù)庫[15]中下載獲得的,采用的數(shù)據(jù)集版本是于2017年3月份更新的Pfam 31.0。因為在PFAM數(shù)據(jù)庫中,有兩種不同質(zhì)量水平的結(jié)構(gòu)域序列數(shù)據(jù):Pfam-A系列和Pfam-B系列。其中,Pfam-A系列的數(shù)據(jù)質(zhì)量水平較高,而Pfam-B系列的數(shù)據(jù)未經(jīng)注釋過且質(zhì)量水平也較低,因此,本實驗僅僅提取酵母的Pfam-A系列的結(jié)構(gòu)域序列數(shù)據(jù)。在實驗中,我們通過在PFAM數(shù)據(jù)庫中下載獲取到swisspfam.gz文件,經(jīng)過預(yù)處理后,提取出具有已知的結(jié)構(gòu)域信息的蛋白質(zhì)共4174個,包含了2829種結(jié)構(gòu)域,而剩余的952個蛋白質(zhì)則認(rèn)為沒有已知的結(jié)構(gòu)域信息。

      3)已知的關(guān)鍵蛋白質(zhì)和非關(guān)鍵蛋白質(zhì)

      通過實驗得到的候選關(guān)鍵蛋白質(zhì)需要和目前已知的關(guān)鍵蛋白質(zhì)數(shù)據(jù)進(jìn)行比對,進(jìn)而分析實驗方法的有效性和準(zhǔn)確率。本實驗所選用的已知關(guān)鍵蛋白質(zhì)數(shù)據(jù)是通過整合數(shù)據(jù)庫 SGD[16]、DEG[17]和SGDP[18]中的酵母的關(guān)鍵蛋白質(zhì)信息數(shù)據(jù)得來。最后整合得到的釀酒酵母的關(guān)鍵蛋白質(zhì)1299個,非關(guān)鍵蛋白質(zhì)4982個。將從DIP數(shù)據(jù)庫中獲取的酵母的5126個蛋白質(zhì)分子與已知關(guān)鍵蛋白質(zhì)和非關(guān)鍵蛋白質(zhì)數(shù)據(jù)對比后,我們發(fā)現(xiàn)可以將5126個蛋白質(zhì)分子分為3類:關(guān)鍵蛋白質(zhì)、非關(guān)鍵蛋白質(zhì)和關(guān)鍵性未知的蛋白質(zhì),其中含有關(guān)鍵蛋白質(zhì)1159個,非關(guān)鍵蛋白質(zhì)3612個,關(guān)鍵性未知的蛋白質(zhì)355個。在實驗過程中,我們將關(guān)鍵性未知的蛋白質(zhì)歸為非關(guān)鍵蛋白質(zhì)一類。

      5.2 評價指標(biāo)

      通常來講可以將關(guān)鍵蛋白質(zhì)的識別問題當(dāng)作非監(jiān)督的分類問題,然后采用統(tǒng)計學(xué)中常用的“排序-篩選”的方法對不同的關(guān)鍵蛋白質(zhì)識別算法的實驗結(jié)果進(jìn)行比較和分析[19]。針對本實驗,“排序-篩選”方法的具體過程如圖2所示。

      除此之外,為更加有效地對各個算法的實驗結(jié)果進(jìn)行評估,還可以使用6種常用的測量指標(biāo),包括敏感度(Sensitivity,SN)、特異性(Specificity,SP)、F-測度(F-measure)、正確率(Accuracy,ACC)、陽性預(yù)測值(Positive Predictive Value,PPV)和陰性預(yù)測值(Negative Predictive Value,NPV)。在詳細(xì)分析這幾種指標(biāo)之前,首先需要了解表1中介紹的幾個概念。

      圖2 排序-篩選的流程

      表1 相關(guān)概念簡介

      基于表1中介紹的四個基本概念,這6種常用的檢測指標(biāo)定義如下:

      5.3 實驗結(jié)果與分析

      按照“排序-篩選”的方法,我們首先計算出5126個蛋白質(zhì)節(jié)點在上述各個算法下的測度參數(shù)并根據(jù)測度值按降序排序,然后分別挑選前1%、5%、10%、15%、20%以及25%的部分作為候選的關(guān)鍵蛋白質(zhì),最后將其和已知的鍵蛋白質(zhì)數(shù)據(jù)進(jìn)行對比,得出各個算法識別出的正確的關(guān)鍵蛋白質(zhì)數(shù)目,如表2所示。

      由表2展示的實驗結(jié)果,可以發(fā)現(xiàn),Do-ECC算法識別出的正確的關(guān)鍵蛋白質(zhì)數(shù)目在各個范圍內(nèi)均顯著多于其他8種算法。

      為更加細(xì)致地比較各個算法識別關(guān)鍵蛋白質(zhì)的效果,進(jìn)一步使用SN、SP、F、ACC、PPV和NPV對它們的實驗結(jié)果進(jìn)行評估比較,如表3所示。

      表2 九種算法識別出的正確的關(guān)鍵蛋白質(zhì)數(shù)目

      表3 九種算法在6種常用檢驗指標(biāo)下的實驗結(jié)果

      由表3不難看出,Do-ECC算法在SN、SP等6種指標(biāo)下的得分均高于其他8種基于蛋白質(zhì)網(wǎng)絡(luò)拓?fù)涮卣鞯乃惴ā?/p>

      6 結(jié)語

      本文使用邊聚集系數(shù)刻畫蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮卣?,并借鑒TF-IDF算法的思想,提出蛋白質(zhì)結(jié)構(gòu)域特異性的概念,然后融合蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)湫畔⒑蜕镄畔?,提出一種基于蛋白質(zhì)結(jié)構(gòu)域特異性的關(guān)鍵蛋白質(zhì)識別算法Do-ECC,最后通過實驗驗證了所提蛋白質(zhì)結(jié)構(gòu)域特異性和Do-ECC的有效性。

      猜你喜歡
      非關(guān)鍵結(jié)構(gòu)域關(guān)鍵
      基于改進(jìn)縮方差法的工期固定-資源均衡優(yōu)化方法
      關(guān)鍵鏈項目管理中考慮資源約束的接駁緩沖設(shè)置新方法
      ——以某大廈地下停車場第二層開挖管道工程為例*
      高考考好是關(guān)鍵
      找回誤刪的系統(tǒng)應(yīng)用
      蛋白質(zhì)結(jié)構(gòu)域劃分方法及在線服務(wù)綜述
      考慮非關(guān)鍵線路影響的PERT網(wǎng)絡(luò)計劃完工概率分析
      山西建筑(2019年10期)2019-04-01 11:02:48
      重組綠豆BBI(6-33)結(jié)構(gòu)域的抗腫瘤作用分析
      組蛋白甲基化酶Set2片段調(diào)控SET結(jié)構(gòu)域催化活性的探討
      泛素結(jié)合結(jié)構(gòu)域與泛素化信號的識別
      獲勝關(guān)鍵
      NBA特刊(2014年7期)2014-04-29 00:44:03
      陆丰市| 三原县| 东丰县| 哈巴河县| 龙州县| 舒兰市| 佛坪县| 北票市| 平凉市| 保德县| 罗定市| 盐山县| 涟源市| 徐州市| 闻喜县| 双峰县| 定远县| 靖边县| 丽江市| 双柏县| 泽库县| 固原市| 高陵县| 洛川县| 镇坪县| 新密市| 田阳县| 马山县| 海淀区| 林西县| 鞍山市| 浏阳市| 五指山市| 剑川县| 兴国县| 霞浦县| 余江县| 庐江县| 呼伦贝尔市| 桦南县| 土默特右旗|