基于蛋白質(zhì)結(jié)構(gòu)域特異性的關(guān)鍵蛋白質(zhì)識別算法*

2020-03-04 05:19:12楊増光

計算機與數(shù)字工程 2020年1期

關(guān)鍵詞：非關(guān)鍵結(jié)構(gòu)域關(guān)鍵

楊増光

（南京理工大學(xué) 南京 210094）

1 引言

眾所周知，蛋白質(zhì)（Protein）在細(xì)胞的組成和生物體的生命活動中扮演著極其重要的作用。但不同類型的蛋白質(zhì)對生物體的重要程度不盡相同，其中那些缺失后會導(dǎo)致生物體病變甚至死亡的蛋白質(zhì)被稱為關(guān)鍵蛋白質(zhì)（essential proteins），其余的則被稱為非關(guān)鍵蛋白質(zhì)（non-essential proteins）［1～3］。

研究表明，關(guān)鍵蛋白質(zhì)的識別對于我們了解細(xì)胞的生長調(diào)控過程，研究生物進(jìn)化的相關(guān)機制，以及根據(jù)關(guān)鍵蛋白質(zhì)進(jìn)行藥物設(shè)計、藥物標(biāo)靶鑒定和疾病治療等方面具有著不可忽視的現(xiàn)實意義［4］。

在生物學(xué)領(lǐng)域中，識別關(guān)鍵蛋白質(zhì)通常是采用生物醫(yī)學(xué)實驗的方式進(jìn)行的，這類方法雖然準(zhǔn)確，但是成本高、效率低，無法適用于日益增長的蛋白質(zhì)數(shù)據(jù)。隨著高通量技術(shù)的發(fā)展，越來越多的蛋白質(zhì)相互作用數(shù)據(jù)被獲取，這讓我們能夠從網(wǎng)絡(luò)水平上識別關(guān)鍵蛋白質(zhì)。

目前，越來越多的研究人員將圖論、復(fù)雜網(wǎng)絡(luò)等相關(guān)知識應(yīng)用到蛋白質(zhì)網(wǎng)絡(luò)中，并提出多種有效的方法來識別關(guān)鍵蛋白質(zhì)，其中常用的有8種具有代表性的算法：DC［5］、BC［6］、CC［7］、SC［8］、EC［9］、IC［10］、LAC［11］、NC［12］。這些算法雖然能夠有效地識別出關(guān)鍵蛋白質(zhì)，但是由于這類算法容易受到網(wǎng)絡(luò)中假陰性和假陽性數(shù)據(jù)的影響且忽略了蛋白質(zhì)網(wǎng)絡(luò)蘊含的生物信息，因而它們的識別精度不高。

本文，我們提出一種基于蛋白質(zhì)結(jié)構(gòu)域特異性的關(guān)鍵蛋白質(zhì)識別算法Do-ECC，通過融合蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)湫畔⒑蜕镄畔?，能夠有效提高關(guān)鍵蛋白質(zhì)的識別準(zhǔn)確度。

2 邊聚集系數(shù)

為充分利用蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)湫畔?，首先需要尋找一個有效的拓?fù)涮卣鳌Ｑ芯勘砻?，關(guān)鍵蛋白質(zhì)更可能和關(guān)鍵蛋白質(zhì)相連，并且成簇出現(xiàn)，而非關(guān)鍵蛋白質(zhì)則表現(xiàn)稀疏，即關(guān)鍵蛋白質(zhì)在網(wǎng)絡(luò)中所處的位置相比于非關(guān)鍵蛋白質(zhì)擁有更高的連通度和模塊化程度［11～12］?；诖耍絹碓蕉嗟难芯咳藛T開始使用邊聚集系數(shù)作為描述蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮卣鱽黹_展自己的研究，實驗結(jié)果也表明，這一特征確實能夠更全面、更準(zhǔn)確地描述蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)湫畔ⅰ?/p>

對網(wǎng)絡(luò)中的任一條邊，邊聚集系數(shù)被定義為該邊在網(wǎng)絡(luò)中實際參與構(gòu)成的三角形個數(shù)與該邊最多可能參與構(gòu)成的三角形個數(shù)之比。如對于邊E(u，v)，其邊聚集系數(shù)可表示為

其中zu，v表示網(wǎng)絡(luò)中該邊實際參與構(gòu)成的三角形的個數(shù)，ku和kv分別表示節(jié)點u和v的度，則表示該邊最多可能參與構(gòu)成的三角形的個數(shù)。不難看出，邊聚集系數(shù)的取值介于0～1之間。對于任一條邊，其邊聚集系數(shù)越大，表明其參與網(wǎng)絡(luò)模塊結(jié)構(gòu)的比重越多，在網(wǎng)絡(luò)中所處位置的聚集程度也越高。

3 蛋白質(zhì)結(jié)構(gòu)域特異性

大多數(shù)蛋白質(zhì)通常是由一個或者多個功能區(qū)域組成，這些區(qū)域一般被稱為蛋白質(zhì)結(jié)構(gòu)域（Protein Domain），是蛋白質(zhì)結(jié)構(gòu)和功能的基本單位。而在自然界中，復(fù)雜的蛋白質(zhì)分子則是由這些結(jié)構(gòu)域通過不同的組合和重排形成的。研究表明，那些在生物體中出現(xiàn)頻率較少的結(jié)構(gòu)域?qū)τ谏矬w具有更加關(guān)鍵的作用；另一方面，包含較多結(jié)構(gòu)域的蛋白質(zhì)分子，通常執(zhí)行更多的生物功能，對正常的生命活動更加重要，也更有可能是關(guān)鍵蛋白質(zhì)［13］。

3.1 TF-IDF算法

在信息檢索、文本分類等相關(guān)領(lǐng)域，TF-IDF（Term Frequency-Inverse Document Frequency），即“詞頻-逆文本頻率”，是一種常用的加權(quán)技術(shù)，用以評估一個單詞對于文本和語料庫的區(qū)分能力與重要程度。

其中TF（Term Frequency），即詞頻，是指一個單詞在一個文本中出現(xiàn)的頻率，通常表示為這個單詞在文本中出現(xiàn)的次數(shù)和該文本包含的單詞的總數(shù)之比，即：

其中，ni，j表示單詞i文本 j中出現(xiàn)的次數(shù)，k表示文本 j包含的單詞類型的數(shù)目，則表示該文本包含的單詞的總數(shù)。

IDF（Inverse Document Frequency），即逆文本頻率的概念，對于一個單詞，它是指整個語料庫中包含該單詞的文本的數(shù)量，通常表示為先計算語料庫的文本總數(shù)和包含該單詞的文本數(shù)之比，然后取對數(shù)，即：

而TF-IDF就是通過結(jié)合兩者，用來評估一個單詞對于文本和語料庫的區(qū)分能力與重要程度，通常表示為

根據(jù)上述定義，可以發(fā)現(xiàn)，一個單詞的重要性和區(qū)分能力隨著它在文本中出現(xiàn)的次數(shù)成正比增加，但同時會隨著它在整個語料庫中出現(xiàn)的頻率成反比下降。

3.2 結(jié)構(gòu)域特異性

借鑒TF-IDF算法的思想，我們對蛋白質(zhì)結(jié)構(gòu)域進(jìn)行重新審視。如果將每種類型的結(jié)構(gòu)域都當(dāng)作一個單詞，那么每條蛋白質(zhì)就相當(dāng)于一個文本文件，而整個生物體包含的所有蛋白質(zhì)就組成了一個語料庫。如圖1所示，如果將PF00270、PF00271等幾種結(jié)構(gòu)域視作一種單詞，則蛋白質(zhì)YER172C、YBL084C、YDL126C的“文本”組成可以表示如圖1所示。

根據(jù)IDF的定義，本文提出了IPF（Inverse Protein Frequency）的概念，來描述蛋白質(zhì)結(jié)構(gòu)域的特異性，即由生物體包含的蛋白質(zhì)總數(shù)除以包含該結(jié)構(gòu)域的蛋白質(zhì)數(shù)目，再將得到的商數(shù)取對數(shù)，如下所示：

圖1 蛋白質(zhì)的結(jié)構(gòu)域組成示意圖

同理，根據(jù)TF的定義，本文提出DF（Domain Frequency）的概念，指一個結(jié)構(gòu)域在一個蛋白質(zhì)分子中出現(xiàn)的頻率，表示為這個結(jié)構(gòu)域在特定蛋白質(zhì)分子中出現(xiàn)的次數(shù)和該蛋白質(zhì)包含的結(jié)構(gòu)域的總數(shù)之比，即：

其中，nd，p表示蛋白質(zhì)結(jié)構(gòu)域d在蛋白質(zhì)分子 p中出現(xiàn)的頻次，k表示蛋白質(zhì)分子 p包含的結(jié)構(gòu)域種類數(shù)，則表示蛋白質(zhì)分子 p包含的結(jié)構(gòu)域的總數(shù)。

3.3 蛋白質(zhì)的結(jié)構(gòu)域特異性得分

參照TF-IDF的定義，本文給出DF-IPF的概念。對于結(jié)構(gòu)域d，其特異性為IPFd，在蛋白質(zhì) p中出現(xiàn)的頻率為DFd，p，則它對應(yīng)的DF-IPF值可以表示如下：

它可以用于描述一個結(jié)構(gòu)域d對蛋白質(zhì) p的重要程度，也可以用于度量蛋白質(zhì) p基于結(jié)構(gòu)域d獲得的特異性得分。而一個蛋白質(zhì)可能包含多種類型的結(jié)構(gòu)域，則其總的結(jié)構(gòu)域特異性得分可以表示為

其中，k表示蛋白質(zhì) p包含的結(jié)構(gòu)域的種類。

4 Do-ECC算法

如上所述，邊聚集系數(shù)能夠描述蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)湫畔?，蛋白質(zhì)的結(jié)構(gòu)域特異性得分則反映了蛋白質(zhì)網(wǎng)絡(luò)蘊含的生物信息。本文，我們通過融合這兩種特征，提出一種新的關(guān)鍵蛋白質(zhì)識別算法Do-ECC。

為方便介紹，首先對蛋白質(zhì)網(wǎng)絡(luò)進(jìn)行建模，將其表示成一個無向圖G(V ，E )，如對于存在相互作用的兩個蛋白質(zhì)分子，可以將這兩個蛋白質(zhì)分別表示為節(jié)點u和v，而將它們間的相互作用表示邊E(u ，v )。

根據(jù)上述定義，對于相互作用E(u ，v) ，其邊聚集系數(shù)可以表示為ECC(u ，v)。為能夠和結(jié)構(gòu)域信息進(jìn)行融合，需對ECC(u ，v)進(jìn)行歸一化處理，表示為

其中，ECCMAX和ECCMIN分別表示所有相互作用的邊聚集系數(shù)的最大值和最小值。

對于蛋白質(zhì)節(jié)點u，它的結(jié)構(gòu)域特異性得分可以表示為Spec()u，同樣需要進(jìn)行歸一化處理，表示為

其中，SpecMAX和SpecMIN分別表示所有蛋白質(zhì)分子的結(jié)構(gòu)域特異性得分的最大值和最小值。同理，對于蛋白質(zhì)節(jié)點v，其歸一化處理后的結(jié)構(gòu)域特異性得分可以表示為SpecNORM()v。

研究表明，蛋白質(zhì)的關(guān)鍵性和蛋白質(zhì)分子間的相互作用存在密切關(guān)系，因此我們可以通過相互作用的兩個蛋白質(zhì)的結(jié)構(gòu)域特異性計算出這條相互作用的特異性。如對相互作用E(u ，v) ，其結(jié)構(gòu)域特異性得分取決于它對應(yīng)的兩個蛋白質(zhì)分子u和v，可以表示為

Do-ECC算法就是通過結(jié)合兩者來評估蛋白質(zhì)的關(guān)鍵性，如對蛋白質(zhì)節(jié)點u，其關(guān)鍵性得分可以表示為

其中Nv是節(jié)點u的鄰居節(jié)點的集合，v是節(jié)點u的鄰居節(jié)點且v∈Nv。蛋白質(zhì)節(jié)點的關(guān)鍵性得分越高，越可能是關(guān)鍵蛋白質(zhì)。

5 實驗

5.1 實驗數(shù)據(jù)

1）蛋白質(zhì)相互作用數(shù)據(jù)

鑒于酵母的蛋白質(zhì)相互作用數(shù)據(jù)的相對完備性，本實驗選擇酵母作為研究對象。所用的蛋白質(zhì)相互作用數(shù)據(jù)是從DIP數(shù)據(jù)庫［14］下載獲得，采用的數(shù)據(jù)集版本是2017年2月5日更新的釀酒酵母的全部蛋白質(zhì)相互作用數(shù)據(jù)集。原始數(shù)據(jù)集中包含22977條蛋白質(zhì)相互作用，去除自連接和重復(fù)的相互作用后，共提取出22620條相互作用，包含5126個蛋白質(zhì)分子。

2）蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)

本實驗所用到的蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)是從PFAM數(shù)據(jù)庫［15］中下載獲得的，采用的數(shù)據(jù)集版本是于2017年3月份更新的Pfam 31.0。因為在PFAM數(shù)據(jù)庫中，有兩種不同質(zhì)量水平的結(jié)構(gòu)域序列數(shù)據(jù)：Pfam-A系列和Pfam-B系列。其中，Pfam-A系列的數(shù)據(jù)質(zhì)量水平較高，而Pfam-B系列的數(shù)據(jù)未經(jīng)注釋過且質(zhì)量水平也較低，因此，本實驗僅僅提取酵母的Pfam-A系列的結(jié)構(gòu)域序列數(shù)據(jù)。在實驗中，我們通過在PFAM數(shù)據(jù)庫中下載獲取到swisspfam.gz文件，經(jīng)過預(yù)處理后，提取出具有已知的結(jié)構(gòu)域信息的蛋白質(zhì)共4174個，包含了2829種結(jié)構(gòu)域，而剩余的952個蛋白質(zhì)則認(rèn)為沒有已知的結(jié)構(gòu)域信息。

3）已知的關(guān)鍵蛋白質(zhì)和非關(guān)鍵蛋白質(zhì)

通過實驗得到的候選關(guān)鍵蛋白質(zhì)需要和目前已知的關(guān)鍵蛋白質(zhì)數(shù)據(jù)進(jìn)行比對，進(jìn)而分析實驗方法的有效性和準(zhǔn)確率。本實驗所選用的已知關(guān)鍵蛋白質(zhì)數(shù)據(jù)是通過整合數(shù)據(jù)庫 SGD［16］、DEG［17］和SGDP［18］中的酵母的關(guān)鍵蛋白質(zhì)信息數(shù)據(jù)得來。最后整合得到的釀酒酵母的關(guān)鍵蛋白質(zhì)1299個，非關(guān)鍵蛋白質(zhì)4982個。將從DIP數(shù)據(jù)庫中獲取的酵母的5126個蛋白質(zhì)分子與已知關(guān)鍵蛋白質(zhì)和非關(guān)鍵蛋白質(zhì)數(shù)據(jù)對比后，我們發(fā)現(xiàn)可以將5126個蛋白質(zhì)分子分為3類：關(guān)鍵蛋白質(zhì)、非關(guān)鍵蛋白質(zhì)和關(guān)鍵性未知的蛋白質(zhì)，其中含有關(guān)鍵蛋白質(zhì)1159個，非關(guān)鍵蛋白質(zhì)3612個，關(guān)鍵性未知的蛋白質(zhì)355個。在實驗過程中，我們將關(guān)鍵性未知的蛋白質(zhì)歸為非關(guān)鍵蛋白質(zhì)一類。

5.2 評價指標(biāo)

通常來講可以將關(guān)鍵蛋白質(zhì)的識別問題當(dāng)作非監(jiān)督的分類問題，然后采用統(tǒng)計學(xué)中常用的“排序-篩選”的方法對不同的關(guān)鍵蛋白質(zhì)識別算法的實驗結(jié)果進(jìn)行比較和分析［19］。針對本實驗，“排序-篩選”方法的具體過程如圖2所示。

除此之外，為更加有效地對各個算法的實驗結(jié)果進(jìn)行評估，還可以使用6種常用的測量指標(biāo)，包括敏感度（Sensitivity，SN）、特異性（Specificity，SP）、F-測度（F-measure）、正確率（Accuracy，ACC）、陽性預(yù)測值（Positive Predictive Value，PPV）和陰性預(yù)測值（Negative Predictive Value，NPV）。在詳細(xì)分析這幾種指標(biāo)之前，首先需要了解表1中介紹的幾個概念。

圖2 排序-篩選的流程

表1 相關(guān)概念簡介

基于表1中介紹的四個基本概念，這6種常用的檢測指標(biāo)定義如下：

5.3 實驗結(jié)果與分析

按照“排序-篩選”的方法，我們首先計算出5126個蛋白質(zhì)節(jié)點在上述各個算法下的測度參數(shù)并根據(jù)測度值按降序排序，然后分別挑選前1%、5%、10%、15%、20%以及25%的部分作為候選的關(guān)鍵蛋白質(zhì)，最后將其和已知的鍵蛋白質(zhì)數(shù)據(jù)進(jìn)行對比，得出各個算法識別出的正確的關(guān)鍵蛋白質(zhì)數(shù)目，如表2所示。

由表2展示的實驗結(jié)果，可以發(fā)現(xiàn)，Do-ECC算法識別出的正確的關(guān)鍵蛋白質(zhì)數(shù)目在各個范圍內(nèi)均顯著多于其他8種算法。

為更加細(xì)致地比較各個算法識別關(guān)鍵蛋白質(zhì)的效果，進(jìn)一步使用SN、SP、F、ACC、PPV和NPV對它們的實驗結(jié)果進(jìn)行評估比較，如表3所示。

表2 九種算法識別出的正確的關(guān)鍵蛋白質(zhì)數(shù)目

表3 九種算法在6種常用檢驗指標(biāo)下的實驗結(jié)果

由表3不難看出，Do-ECC算法在SN、SP等6種指標(biāo)下的得分均高于其他8種基于蛋白質(zhì)網(wǎng)絡(luò)拓?fù)涮卣鞯乃惴ā?/p>

6 結(jié)語

本文使用邊聚集系數(shù)刻畫蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮卣?，并借鑒TF-IDF算法的思想，提出蛋白質(zhì)結(jié)構(gòu)域特異性的概念，然后融合蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)湫畔⒑蜕镄畔?，提出一種基于蛋白質(zhì)結(jié)構(gòu)域特異性的關(guān)鍵蛋白質(zhì)識別算法Do-ECC，最后通過實驗驗證了所提蛋白質(zhì)結(jié)構(gòu)域特異性和Do-ECC的有效性。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看