• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      序列相似性網(wǎng)絡(luò)聚類與蛋白質(zhì)家族劃分

      2014-12-25 02:28:10時(shí)逢寬李煒疆
      關(guān)鍵詞:鄰接矩陣相似性家族

      時(shí)逢寬, 李煒疆

      (1.江南大學(xué) 工業(yè)生物技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 無(wú)錫 214122;2.江南大學(xué) 生物工程學(xué)院,江蘇 無(wú)錫 214122)

      隨著近年測(cè)序技術(shù)發(fā)展,蛋白質(zhì)序列數(shù)據(jù)爆炸式增長(zhǎng)。到目前為止,收錄信息資源最廣的蛋白質(zhì)數(shù)據(jù)庫(kù) Uniprot(http://www.uniprot.org)中儲(chǔ)存了超過(guò)3 600萬(wàn)條蛋白質(zhì)序列。這些序列已知的蛋白質(zhì)絕大部分的功能是未經(jīng)實(shí)驗(yàn)鑒定的,必須借助計(jì)算方法確定,而聚類方法尤其是近年引起關(guān)注的圖聚類方法,為從序列解讀蛋白質(zhì)功能提供了一種高效途徑。

      聚類方法實(shí)現(xiàn)蛋白質(zhì)按功能分類是一個(gè)探索蛋白質(zhì)同源關(guān)系的過(guò)程,通過(guò)序列相似性推斷具有共同祖先的蛋白質(zhì)。實(shí)施蛋白質(zhì)按功能聚類的第一步是獲取蛋白質(zhì)之間功能聯(lián)系的描述的依據(jù)是序列間的相似性關(guān)系網(wǎng)絡(luò)(稱為關(guān)聯(lián)圖),兩兩比對(duì)相似性分?jǐn)?shù),這些分?jǐn)?shù)通??梢岳肂LAST[1]或FASTA[2]算法高效率地獲得。如果待分類蛋白質(zhì)由集團(tuán)特征明顯的類別組成,亦即同類蛋白質(zhì)之間的序列相似性顯著高于不同類之間的相似性,則傳統(tǒng)的聚類法,例如層次聚類,既可方便快捷地實(shí)現(xiàn)分類。但是當(dāng)?shù)鞍踪|(zhì)間的序列相似性很低,接近隨機(jī)漲落區(qū)域時(shí),隨機(jī)成分(噪音)在相似性分?jǐn)?shù)中所占比重越來(lái)越大,嚴(yán)重干擾聚類過(guò)程,一般的聚類方法就難以奏效,而圖聚類(Graph Clustering)則可以更好克服噪音干擾,揭示隱蔽的分類結(jié)構(gòu)。

      蛋白質(zhì)相似性網(wǎng)絡(luò)通常表示為無(wú)向圖,圖中節(jié)點(diǎn)為蛋白質(zhì),節(jié)點(diǎn)之間的邊為序列相似性分?jǐn)?shù),從而將蛋白質(zhì)相似性分類問(wèn)題變換為利用圖論的圖聚類問(wèn)題。例如,maximal clique方法通過(guò)尋找圖中節(jié)點(diǎn)之間相互完全連通的子圖尋找功能模塊[3],但是蛋白質(zhì)序列之間無(wú)法達(dá)到如此高的連接程度,因此只能找到少量的集團(tuán);MCL方法通過(guò)對(duì)相似性矩陣不斷交替使用expansion操作和inflation操作,直到矩陣不再變化為止,即為冪等矩陣,對(duì)應(yīng)最后的聚類結(jié)果[4],然而Paccanaro等人研究發(fā)現(xiàn)MCL算法很容易產(chǎn)生較很小的集團(tuán)。作者采用的基于最優(yōu)模塊度的圖聚類CD算法[5],以模塊度作為衡量集團(tuán)結(jié)構(gòu)的強(qiáng)弱的指標(biāo),將聚類問(wèn)題轉(zhuǎn)換為尋找模塊度最大的集團(tuán),以往的研究表明該算法能用極短時(shí)間獲得較高質(zhì)量的聚類結(jié)果。本文主要研究:考察當(dāng)數(shù)據(jù)關(guān)系極其復(fù)雜以及數(shù)據(jù)規(guī)模極不均勻時(shí)該算法的穩(wěn)定性;通過(guò)不同方法構(gòu)建鄰接矩陣對(duì)聚類結(jié)果的影響;如何在聚類起始預(yù)估最佳閾值范圍。

      1 數(shù)據(jù)與方法

      1.1 蛋白質(zhì)序列及家族分類

      由于研究?jī)?nèi)容與蛋白質(zhì)功能有關(guān),而Pfam蛋白質(zhì)家族數(shù)據(jù)庫(kù)[6]是大量依據(jù)功能相關(guān)分類的集合。其中的Pfam-A的數(shù)據(jù)為專家審核維護(hù)集合,質(zhì)量較好可靠性較高;Pfam-B則是利用自動(dòng)算法劃分的未經(jīng)過(guò)人工審核的數(shù)據(jù)集合。宗族(Clan)[6]是指根據(jù)序列相似性,功能相關(guān)或隱馬爾科夫模型(HMM)收錄于Pfam-A中的集合。蛋白質(zhì)家族是指具有同源性結(jié)構(gòu)域以及序列具有進(jìn)化相關(guān)或者功能相似的蛋白質(zhì)所形成的集群。家族內(nèi)在結(jié)構(gòu)上與功能上具有比較強(qiáng)的同源關(guān)系,而表現(xiàn)在序列方面則具有顯著的序列相似性。集團(tuán)節(jié)點(diǎn)間連接的概率,家族內(nèi)>家族間>宗族間。同一宗族內(nèi)部家族成員之間關(guān)系與非同宗族相比較而言較為緊密,加大了數(shù)據(jù)的復(fù)雜度以及聚類難度。

      蛋白質(zhì)序列數(shù)據(jù)來(lái)自Pfam數(shù)據(jù)庫(kù)26.0版本中人工維護(hù)的可信度較高的Pfam-A中獲得,選擇Multiheme_cytos (CL0317)宗族[7],包含 9 個(gè)家族成員,由于家族間具有一定的進(jìn)化關(guān)系以及家族規(guī)模差異較大,該數(shù)據(jù)能較好的反應(yīng)實(shí)際數(shù)據(jù)存在形式,本文使用該數(shù)據(jù)能有效的測(cè)試CD算法在家族間聯(lián)系較為緊密以及家族分歧較大時(shí)仍能表現(xiàn)較好的穩(wěn)定性以及高效性。本宗族中其中一共包含2 210條序列,對(duì)于圖聚類算法而言,數(shù)據(jù)結(jié)構(gòu)不均一將影響聚類結(jié)果的質(zhì)量,作者采用的數(shù)據(jù)集家族內(nèi)成員在規(guī)模上也有較大分歧極度不均一,目的以測(cè)試基于模塊度最優(yōu)的CD算法表現(xiàn)。家族內(nèi)成員的數(shù)目分布如表1所示。

      表 1 測(cè)試數(shù)據(jù)集(CL0317宗族)中的序列在各家族的分布Table 1 Distribution of sequences in each family in the tested dataset(CL0317)

      其總數(shù)據(jù)、家族內(nèi)與家族間的相似性分?jǐn)?shù)分布情況如圖1所示。

      圖1為本文采用的數(shù)據(jù)集的Score分布情況。由于采用BLAST計(jì)算相似性分?jǐn)?shù)時(shí),只報(bào)告相似性顯著的序列對(duì)(E<10)。從數(shù)據(jù)分布情況可知家族內(nèi)序列對(duì)相似性顯著比例較高序列之間連接緊密,相反家族間的結(jié)連接為稀疏,使得采用模塊度的圖聚類進(jìn)行蛋白質(zhì)分類成為可能。家族內(nèi)相似性不顯著的序列對(duì)約占家族內(nèi)總數(shù)據(jù)的30%,家族內(nèi)的序列相似性分?jǐn)?shù)分布的峰值處于30附近;不僅如此,來(lái)自不同家族間的序列相似性顯著的序列對(duì)約占19%,其Scores峰值也在30附近。這些不正確的序列關(guān)聯(lián)嚴(yán)重干擾聚類過(guò)程中序列的正確分類,例如簡(jiǎn)單依據(jù)相似性距離的層次聚類。

      圖1 家族內(nèi)與家族間的相似性分?jǐn)?shù)分布情況Fig.1 Distributions of sequence score between pairs of sequences.Note that the main parts of the distributions are in the fluctuation region with very low sequence score

      圖2中的“點(diǎn)”為兩條序列節(jié)點(diǎn)之間有BLAST報(bào)告的,即序列之間相似性顯著。由于家族內(nèi)成員之間相似性顯著所占比例大于家族間,從而形成圖中所示的塊狀結(jié)構(gòu),而由圖1中的家族間相似性顯著序列也占有一部分,從而導(dǎo)致圖2中家族之間的界限比較模糊,家族間相互聯(lián)系互相干擾使得聚類難度增大。

      圖2 所有BLAST報(bào)告中序列之間相似性E-value<10的稀疏結(jié)構(gòu)圖Fig.2 Spy plot of the similarity between all sequence pairs reported by BLAST all-against-all search with E-value<10.Each dot represents a significant match between the corresponding pair of sequences

      1.2 算法簡(jiǎn)介

      圖聚類在最近幾年廣泛的應(yīng)用于各個(gè)領(lǐng)域?qū)W科例如生物信息學(xué)、模式識(shí)別、社會(huì)社交等[8-17],特別是采用網(wǎng)絡(luò)模塊度的圖聚類方法得到了更高的關(guān)注。模塊度是由Newman和Girvan[8-20]提出的用于衡量聚類結(jié)果中網(wǎng)絡(luò)集團(tuán)結(jié)構(gòu)特征強(qiáng)弱的指標(biāo),通過(guò)搜索使模塊度最大化的集團(tuán)劃分,即可實(shí)現(xiàn)網(wǎng)絡(luò)節(jié)點(diǎn)的聚類,例如將蛋白質(zhì)劃分為不同家族。模塊度最大化是NP困難問(wèn)題,沒有快速精確求解方法,只能用近似方法尋求次優(yōu)解。CD算法[5,20]是一種高效的模塊度最大化算法,在眾多實(shí)際應(yīng)用問(wèn)題中表現(xiàn)出良好性能,因而選作本文的圖聚類算法。

      1.3 鄰接矩陣構(gòu)造方法

      蛋白質(zhì)相似性網(wǎng)絡(luò)是基于序列之間相似性定義的,表示蛋白質(zhì)之間的相似程度,通常是賦權(quán)圖,其中節(jié)點(diǎn)為蛋白質(zhì),邊的權(quán)重為利用BLAST獲得的序列兩兩比較的E-value(E值)或Score(S值)。當(dāng)兩個(gè)序列的相似性臨近隨機(jī)漲落區(qū)域時(shí),其BLAST報(bào)告的E或S分值就由隨機(jī)因素主導(dǎo),從而逐漸失去了精確量化相似程度的意義,將這些分?jǐn)?shù)直接輸入聚類算法就可能干擾聚類結(jié)果。因此在本文中,采用非賦權(quán)圖表示蛋白質(zhì)相似性網(wǎng)絡(luò),其中的邊僅表示存在相似關(guān)系而不包含程度信息,相應(yīng)的鄰接矩陣由0和1構(gòu)成。采用非賦權(quán)圖還可以顯著降低圖聚類的算法復(fù)雜度。

      本文BLAST報(bào)告的E值和S值為基礎(chǔ),采用閾值過(guò)濾方式構(gòu)建鄰接矩陣,考察不同的閾值對(duì)聚類結(jié)果的影響,尋找最佳閾值?;赟值構(gòu)建鄰接矩陣可以表示為

      其中 i,j表示蛋白質(zhì);Aij為鄰接矩陣的 (i,j)元素,表示蛋白質(zhì)i與j之間是否存在相似關(guān)系;Sij為蛋白質(zhì)i與j之間的BLAST相似性分?jǐn)?shù);Sthreshold為給定的閾值。 由BLAST計(jì)算得到的相似性分?jǐn)?shù)矩陣不是嚴(yán)格對(duì)稱的,亦即Sij與Sji有差異,對(duì)此我們采用取最大分?jǐn)?shù)使其對(duì)稱化。

      當(dāng)以E值為基礎(chǔ)構(gòu)建鄰接矩陣時(shí),采用如下過(guò)濾方式

      1.4 聚類結(jié)果與已知分類一致性的評(píng)估方法

      聚類結(jié)果所對(duì)應(yīng)的Q值反應(yīng)了在給定聚類模型下,算法尋找最優(yōu)解的能力。為了評(píng)價(jià)聚類結(jié)果與蛋白質(zhì)家族分類的一致性,我們采用歸一化互信息 NMI(Normalized Mutual Information)描述聚類結(jié)果與目標(biāo)分類的吻合程度,其定義為[23-24]

      其中A表示蛋白質(zhì)家族分類;B表示聚類結(jié)果;cA表示家族數(shù);cB表示聚類結(jié)果的集團(tuán)數(shù);Nab表示家族a的成員中在聚類結(jié)果中劃分至集團(tuán)b的數(shù)目;由Nab構(gòu)成的矩陣稱為混淆矩陣(confusion matrix),刻畫了不同分類之間的相互關(guān)系。為家族a中蛋白質(zhì)總數(shù),為聚類結(jié)果中屬于集團(tuán)b的蛋白質(zhì)數(shù)目。

      NMI的數(shù)值是介于0與1之間,越接近1則聚類結(jié)果與目標(biāo)分類的一致性就越好,當(dāng)NMI等于1時(shí),實(shí)際分類與目標(biāo)分類是完全等價(jià)的。

      2 結(jié)果和討論

      采用的圖聚類算法CD是隨機(jī)算法,每次運(yùn)行得到的結(jié)果都略有差異,多次重復(fù)運(yùn)算可以獲得更好的結(jié)果。為了獲得盡可能穩(wěn)定的分類結(jié)果,在一次聚類計(jì)算中重復(fù)運(yùn)行CD程序,一般說(shuō)來(lái),運(yùn)算次數(shù)越多,以模塊度衡量的計(jì)算結(jié)果越好,當(dāng)然需要的計(jì)算量也越大。在一定閾值下構(gòu)建鄰接矩陣,測(cè)試了選取不同運(yùn)算次數(shù)時(shí)算法穩(wěn)定性的表現(xiàn),結(jié)果見圖3。

      圖3 不同的重復(fù)運(yùn)行次數(shù)與最優(yōu)模塊度QFig.3 Best modularity (Q)values obtained in multiple runs of the CD algorithm with different replication numbers.The mean values and standard errors were calculated on 100 outputs of multiple runs

      隨著運(yùn)算次數(shù)的增加計(jì)算的次數(shù)大幅增加,Q值平均值增加,但是波動(dòng)逐步減小,隨著運(yùn)算次數(shù)的增加穩(wěn)定性逐步增強(qiáng),因此在合適的配置數(shù)下能減小算法隨機(jī)波動(dòng)所導(dǎo)致的誤差,綜合考慮選擇相同情況下運(yùn)算程序10次,然后取Q值最大時(shí)為最優(yōu)解。

      作者使用的CD算法通常不需要調(diào)整參數(shù),只需將初始最大集團(tuán)數(shù)目(nslots)設(shè)置為大于可能的最終分類數(shù)即可,CD算法在優(yōu)化搜索過(guò)程中能夠自動(dòng)縮減分類數(shù)至合適的數(shù)值。測(cè)試結(jié)果也表明當(dāng)nslots足夠大時(shí),聚類結(jié)果不依賴于nslots的具體取值,故固定選取nslots=100。

      選取不同的閾值得到的鄰接矩陣也不同,進(jìn)而影響最終聚類結(jié)果。對(duì)于數(shù)據(jù)集CL0317,采取多個(gè)閾值構(gòu)建鄰接矩陣然后計(jì)算CD聚類,結(jié)果見圖4。圖中每個(gè)閾值對(duì)應(yīng)的CD聚類均重復(fù)100次,考察算法的平均性能和穩(wěn)定性。

      圖4 使用NMI衡量鄰接矩陣對(duì)聚類結(jié)果的影響Fig.4 Influence of the adjacency matrix on the clustering performance measured by normalized mutual information. The adjacency matrices are constructed by filtering A)similarity scores and B)E-values with varied thresholds.

      由圖4可見,基于E值與基于S值得到的聚類性能沒有明顯差異。以S值構(gòu)建鄰接矩陣時(shí),最佳聚類結(jié)果在Sthreshold=29附近獲得,但是在Sthreshold=25~33這樣一個(gè)很寬的范圍內(nèi),平均NMI值起伏很小,表明聚類方法對(duì)于鄰接矩陣的適度寬容性。

      當(dāng)采用非常嚴(yán)格的相似性標(biāo)準(zhǔn),即Sthreshold遠(yuǎn)大于最佳閾值時(shí),相似性圖中因隨機(jī)效應(yīng)導(dǎo)致的錯(cuò)誤連接大量減少,同時(shí)真實(shí)反映序列關(guān)聯(lián)的正確數(shù)據(jù)也被過(guò)濾掉,使得聚類依據(jù)不足從而性能明顯下降。相反,過(guò)于寬松的閾值(即Sthreshold很?。┦沟孟嗨菩詧D中隨機(jī)連接大量增加進(jìn)而降低聚類準(zhǔn)確性。

      當(dāng)以E值為基礎(chǔ)構(gòu)建鄰接矩陣時(shí),結(jié)果是類似的,最佳聚類性能在lgEthreshold=-2~0較寬的范圍內(nèi)達(dá)到。我們注意到,這樣的相似性標(biāo)準(zhǔn)比通常采用的BLAST 標(biāo)準(zhǔn)(E~10-5—10-2)寬松,說(shuō)明此時(shí)的相似性圖中含有較多的隨機(jī)誤差數(shù)據(jù),采用的聚類方法能夠滿意地從噪音數(shù)據(jù)中提取正確的分類信息。

      采用Pfam數(shù)據(jù)庫(kù)中人工維護(hù)審核的Pfam-A數(shù)據(jù)庫(kù)中的一個(gè)宗族,由于宗族內(nèi)的家族成員之間有著一定關(guān)系,與非宗族內(nèi)的蛋白質(zhì)數(shù)據(jù)相比聚類難度大。圖聚類中家族大小規(guī)模不均勻分或分歧度較高是聚類分析中比較難以聚類的情況,作者挑選這一宗族Paired_CXXCH_1家族有479條序列,小的GSu_C4xC__C2xCH家族只有15條序列,兩者相差數(shù)十倍,詳見表1,這樣的數(shù)據(jù)集是典型蛋白質(zhì)家族關(guān)系,從而本實(shí)驗(yàn)的結(jié)果更能說(shuō)明利用序列相似性網(wǎng)絡(luò)基于模塊度的CD聚類算法的優(yōu)良性能和通用性。

      綜合結(jié)果可以發(fā)現(xiàn),鄰接矩陣的構(gòu)建方法對(duì)聚類結(jié)果有著較為密切聯(lián)系,并且使用基于模塊度的CD算法能夠有效的挖掘網(wǎng)絡(luò)內(nèi)在的集團(tuán)結(jié)構(gòu),并將有效信息從包含大量噪音的數(shù)據(jù)中提取出來(lái)。由于隨著構(gòu)建鄰接矩陣采用的閾值限定的增強(qiáng) (減弱)節(jié)點(diǎn)之間的聯(lián)系減少(增多),噪聲減少(增強(qiáng)),節(jié)點(diǎn)之間連接正確率增高(降低),導(dǎo)致圖聚類算法的可用信息逐步減少(增多)。閾值限定的增強(qiáng)導(dǎo)致節(jié)點(diǎn)之間的連接減少,形成大量的孤立點(diǎn),從而算法無(wú)法判斷其所屬導(dǎo)致聚類結(jié)果下降;閾值限定的減弱導(dǎo)致節(jié)點(diǎn)之間的連接增多,有用信息量增加的同時(shí)引入大量的錯(cuò)誤信息,正確數(shù)據(jù)淹沒在大量的噪聲中使得算法無(wú)法正確判斷分類信息。研究表明:盡管采用不同類型的相似性分?jǐn)?shù)作為構(gòu)建鄰接矩陣的閾值,CD算法仍能在較為寬松的閾值范圍內(nèi)從包含大量噪聲的數(shù)據(jù)中識(shí)別出具有功能的集團(tuán)結(jié)構(gòu),即只要輸入CD算法的鄰接矩陣包含有足夠多分類信息,該算法就可以獲得與實(shí)際結(jié)果一致性較高的聚類結(jié)果。而對(duì)于采用single-linkage層次聚類的聚類結(jié)果分析得到NMI數(shù)值為0.028,形成了巨大的一個(gè)集團(tuán)與一些零散的小集團(tuán),相比采用CD算法的NMI值為0.778,結(jié)果明顯更加合理。通過(guò)分析表明CD圖聚類算法聚類結(jié)果最優(yōu)閾值與圖1中總數(shù)據(jù)、家族內(nèi)和家族間數(shù)據(jù)分布峰值是一致的,通過(guò)本文的研究使得聚類前對(duì)數(shù)據(jù)分布分析可以估計(jì)最佳閾值范圍。

      由于家族內(nèi)外的序列相似程度的高低差異,由圖1的相似性分布可知白質(zhì)序列家族劃分不能簡(jiǎn)單依據(jù)相似性進(jìn)行蛋白質(zhì)家族劃分。Pfam-A中的蛋白質(zhì)家族為檢驗(yàn)本實(shí)驗(yàn)結(jié)果的準(zhǔn)確性提供了數(shù)據(jù)支持,蛋白質(zhì)之間的相似性分?jǐn)?shù)可以通過(guò)BLAST進(jìn)行一一比對(duì)獲得,采用不同的相似性數(shù)值構(gòu)建相似性矩陣,矩陣節(jié)點(diǎn)之間的權(quán)重采用不同的相似分?jǐn)?shù),依據(jù)構(gòu)建的相似性矩陣采用不同的閾值構(gòu)建鄰接矩陣,本實(shí)驗(yàn)重點(diǎn)研究不同的相似分?jǐn)?shù)以及不同閾值構(gòu)建鄰接矩陣對(duì)CD算法的結(jié)果的影響,并得出閾值只要在較寬松范圍內(nèi)聚類結(jié)果都比較理想,并且該區(qū)間與數(shù)據(jù)集自己身分布有關(guān),最佳閾值在數(shù)據(jù)分布峰值附近。當(dāng)選取的閾值大于峰值時(shí),由于較多的有用信息被去除,從而導(dǎo)致許多孤立節(jié)點(diǎn),使得聚類算法無(wú)法判斷其分類信息,使得聚類結(jié)果質(zhì)量下降;當(dāng)選取閾值過(guò)小于峰值時(shí),有用信息增多的同時(shí)噪聲大量增加,也使得無(wú)法正確劃分其分類信息;因此采用合適的閾值能去除一部分噪聲的干擾有助于聚類算法識(shí)別有用信息。利用序列相似網(wǎng)絡(luò)的CD圖聚類法對(duì)蛋白質(zhì)家族劃分,從本實(shí)驗(yàn)結(jié)果與實(shí)際的平均吻合程度上分析該方法對(duì)蛋白質(zhì)序列家族劃分有較高的準(zhǔn)確率。所以綜合考慮利用CD算法用于序列相似網(wǎng)絡(luò)聚類分析在蛋白質(zhì)家族劃分方面是一種高質(zhì)量的聚類方法。

      [1]Altschul S F,Gish W,Miller W,et al.Basic local alignment search tool[J].J Mol Biol,1990,215(3):403-410.

      [2]Pearson W R.Effective protein sequence comparison[J].Meth Enzymol,1996,266:227-258.

      [3]Spirin V,Mirny L A.Protein complexes and functional modules in molecular networks[J].PNAS,2003,100(21):12123-12128.

      [4]Enright A J,Van Dongen S,Ouzounis C A.An efficient algorithm for large-scale detection of protein families[J].Nucleic Acids Research,2002,30(7):1575-1584.

      [5]Mei J,He S,Shi G,et al.Revealing network communities through modularity maximization by a contraction-dilation method[J].New Journal of Physics,2009,11(4).

      [6]Punta M,Coggill P C,Eberhardt R Y,et al.The pfam protein families database[J].Nucleic Acids Research,2011,40(D1):D290-D301.

      [7]Mowat C G,Chapman S K.Multi-heme cytochromes—new structures,new chemistry[J].Dalton Transactions,2005(21):3381-3389.

      [8]Foggia P,Percannella G,Sansone C,et al.A graph-based clustering method and its applications[Springer Berlin/Heidelberg.2007:277-287.

      [9]Bello-Orgaz G,Menéndez H D,Camacho D.Adaptive k-means algorithm for overlapped graph clustering[J].Int J Neural Syst,2012,22(5).

      [10]Santini G,Soldano H,Pothier J.Automatic classification of protein structures relying on similarities between alignments[J].BMC Bioinformatics,2012,13(1).

      [11]He J,L C,Y B,et al.Efficient and accurate greedy search methods for mining functional modules in protein interaction networks[J].BMC Bioinformatics,2012,13.

      [12]Seah B S,Bhowmick S S,F(xiàn)orbes Dewey C,Jr.Facets:Multi-faceted functional decomposition of protein interaction networks[J].Bioinformatics,2012,28(20):2624-2631.

      [13]Solava R W,Michaels R P,Milenkovic T.Graphlet-based edge clustering reveals pathogen-interacting proteins[J].Bioinformatics,2012,28(18):i480-i486.

      [14]Healey C G,Dennis B M.Interest driven navigation in visualization[J].IEEE Trans Vis Comput Graph,2012,18(10):1744-1756.

      [15]Becker E,Robisson B,Chapple C E,et al.Multifunctional proteins revealed by overlapping clustering in protein interaction network[J].Bioinformatics,2012,28(1):84-90.

      [16]González A J,L L,W C H.Predicting ligand binding residues and functional sites using multipositional correlations with graph theoretic clustering and kernel cca[J].IEEE/ACM Trans Comput Biol Bioinform,2012,9(4):992-1001.

      [17]Qian P,Chung F L,Wang S,et al.Fast graph-based relaxed clustering for large data sets using minimal enclosing ball[J].IEEE transactions on systems,man,and cybernetics.Part B,Cybernetics :a publication of the IEEE Systems,Man,and Cybernetics Society,2012,42:672-687.

      [18]Newman M E J,Girvan M.Finding and evaluating community structure in networks[J].Phys Rev E Stat Nonlin Soft Matter Phys,2004,69(2 Pt 2).

      [19]Girvan M,Newman M E J.Community structure in social and biological networks[J].PNAS,2002,99(12):7821-7826.

      [20]M J,Y X,Z W.Revealing remote protein homology with sequence similarity and a modularity-based approach[J].Theor Biol Forum,2011,104(1):57-68.

      猜你喜歡
      鄰接矩陣相似性家族
      輪圖的平衡性
      一類上三角算子矩陣的相似性與酉相似性
      淺析當(dāng)代中西方繪畫的相似性
      HK家族崛起
      《小偷家族》
      電影(2019年3期)2019-04-04 11:57:18
      皿字家族
      家族中的十大至尊寶
      基于鄰接矩陣變型的K分網(wǎng)絡(luò)社團(tuán)算法
      低滲透黏土中氯離子彌散作用離心模擬相似性
      一種判定的無(wú)向圖連通性的快速Warshall算法
      404 Not Found

      404 Not Found


      nginx
      榆中县| 阿巴嘎旗| 永丰县| 安康市| 威海市| 五家渠市| 班戈县| 西安市| 延庆县| 晋宁县| 青冈县| 岗巴县| 建阳市| 桦甸市| 贡觉县| 凤台县| 娱乐| 翼城县| 姜堰市| 奉节县| 老河口市| 抚顺市| 江城| 江北区| 通州市| 汝阳县| 孟津县| 正宁县| 冀州市| 三门县| 霍邱县| 蓝山县| 沙河市| 崇文区| 西城区| 扬中市| 伊通| 阳春市| 翼城县| 宿松县| 延安市|