劉瓏龍, 馬 蒙, 劉毛娟
(中國海洋大學(xué)數(shù)學(xué)科學(xué)學(xué)院, 山東 青島 266100)
?
基于自組織映射神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)序列分析模型?
劉瓏龍, 馬蒙, 劉毛娟
(中國海洋大學(xué)數(shù)學(xué)科學(xué)學(xué)院, 山東 青島 266100)
摘要:為了對蛋白質(zhì)序列進(jìn)行更精確合理地相似性分析,本文將氨基酸的排列方式與其理化性質(zhì)相結(jié)合,提出了一種基于自組織映射神經(jīng)網(wǎng)絡(luò)的聚類模型。首先,采用Wang和Wang的方法把蛋白質(zhì)序列轉(zhuǎn)化為一條5-字母序列,并將5個(gè)字母均勻分布在以原點(diǎn)為圓心的單位圓周上,得到蛋白質(zhì)序列的位置坐標(biāo)x,y。然后,結(jié)合氨基酸的3個(gè)理化指標(biāo),進(jìn)而用一個(gè)5-維向量來表示一個(gè)氨基酸。最后,運(yùn)用自組織映射神經(jīng)網(wǎng)絡(luò)對不同的蛋白質(zhì)向量進(jìn)行聚類分析。本文最后的數(shù)值試驗(yàn)部分對9個(gè)不同物種的線粒體NADH脫氫酸的蛋白質(zhì)序列進(jìn)行了相似性分析,實(shí)驗(yàn)結(jié)果在一定程度上驗(yàn)證了模型的有效性。
關(guān)鍵詞:蛋白質(zhì)序列; 理化指標(biāo); 自組織映射神經(jīng)網(wǎng)絡(luò); 相似性分析
引用格式:劉瓏龍,馬蒙,劉毛娟.基于自組織映射神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)序列分析模型[J].中國海洋大學(xué)學(xué)報(bào)(自然科學(xué)版), 2016, 46(7):130-135.
LIU Long-Long, MA Meng, LIU Mao-Juan. A model of protein sequences based on SOM neural network[J].Periodical of Ocean University of China, 2016, 46(7):130-135.
隨著生物分子數(shù)據(jù)的迅速增長,對這些數(shù)據(jù)進(jìn)行分析得到對人類有用的信息變得越來越重要。盡管DNA序列的圖形表示已經(jīng)被廣泛地研究,但是對蛋白質(zhì)序列的圖形表示研究只是近幾年的事[1-4]。主要原因是蛋白質(zhì)序列中氨基酸種類數(shù)目遠(yuǎn)遠(yuǎn)大于DNA序列中堿基的種類數(shù)目(20∶4)。在DNA序列中,4種堿基最多只有4!=24種不同的排列順序。如果把DNA序列的這些表示方法直接推廣到蛋白質(zhì)序列,則將會有20!種可能的方式,這個(gè)數(shù)字是難以接受的。這也是蛋白質(zhì)序列圖形表示方法比較少的一個(gè)主要原因[4,16]。此外,大多數(shù)蛋白質(zhì)的圖形表示存在一定程度的任意性,如將氨基酸對圖形頂點(diǎn)進(jìn)行分配等[10-12]。
1.1 蛋白質(zhì)序列的矩陣表示
從數(shù)學(xué)角度來說,一個(gè)蛋白質(zhì)序列可以被看做是在20種氨基酸的字母表Ω上的字符串,即Ω= { A,C,D,E,F(xiàn),G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}。根據(jù)氨基酸的物理化學(xué)性質(zhì)以及它們之間的相互作用,Wang 和Wang[7]把20種氨基酸分成下面5類: { C,M,F(xiàn),I,L,V,W,Y} ,{ A,T,H} ,{ G,P} ,{ D,E} 和{ S,N,Q,R,K}。分別取每類中的一種氨基酸I,A,G,E 和K 作為的代表,這樣,一條蛋白質(zhì)序列可以被簡化成一條五字母序列的蛋白質(zhì)序列。例如,Randic[4]文章中的yeast saccharomyces cerevisiae的蛋白質(zhì)序列為WTFESRNDPAKDPVILWLNGGPGCSSLTGL,其對應(yīng)的5-字母序列片段為:IAIEKKKEGAKEGIIIIIKGGGGIKKIAGI。Jeffrey將A, C, G, T4個(gè)堿基分布在正方形的4個(gè)頂點(diǎn)上,最終得到DNA序列對應(yīng)的圖形[9]。受此啟發(fā),對于任意一條5-字母序列, 我們將5個(gè)字母均勻分布在以原點(diǎn)為圓心的單位圓周上, 并賦予它們坐標(biāo):xi0=cos(2iπ/5), yi0=sin(2iπ/5) 其中i=0,1…,4。
設(shè)S=S1,S2,…,Sn是一條5-字母序列, 類似于Jeffrey的方法, 我們定義同態(tài)δ:δ(S)=δ(S1)δ(S2)…δ(Sn)將S映射到平面上的n個(gè)點(diǎn)P1,P2,…Pn。其中δ(Sk)=Pk=(xk,yk)由下述公式得到:
(xk,yk)=
(1)
規(guī)定x0=0,y0=0。這樣我們就得到了一個(gè)表示氨基酸的5維向量的前2個(gè)元素x,y。
表1 5個(gè)氨基酸的3個(gè)理化性質(zhì)
1.2 數(shù)值刻畫——中心坐標(biāo)法
(2)若xmin=xmax, 則x′=xmin。
1.3 SOM神經(jīng)網(wǎng)絡(luò)
采用有導(dǎo)師學(xué)習(xí)規(guī)則的神經(jīng)網(wǎng)絡(luò)要求對所學(xué)習(xí)的樣本給出“正確答案”,以便根據(jù)誤差的大小改進(jìn)自身的權(quán)值,提高正確解決問題的能力。然而在很多情況下,人在認(rèn)知過程中沒有預(yù)知的正確模式。對于這種學(xué)習(xí)方式,基于有導(dǎo)師學(xué)習(xí)策略的神經(jīng)網(wǎng)絡(luò)是無能無力的。自組織神經(jīng)網(wǎng)絡(luò)的無導(dǎo)師學(xué)習(xí)方式更類似于人類大腦中生物神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),能夠?qū)ν饨缥粗h(huán)境進(jìn)行學(xué)習(xí)或模擬并對自身的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整,實(shí)現(xiàn)對輸入模式的自動分類。
1.3.1 SOM神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)自組織映射(SOM)神經(jīng)網(wǎng)絡(luò)是自組織神經(jīng)網(wǎng)絡(luò)的一種,是由荷蘭學(xué)者Teuvo Kohonen于1981年提出的。常用的SOM神經(jīng)網(wǎng)絡(luò)模型由輸入層和輸出層組成;輸入層各神經(jīng)元通過權(quán)值向量將外界信息匯集到輸出層的各神經(jīng)元。輸出層節(jié)點(diǎn)與輸入層節(jié)點(diǎn)為全連接,輸入層、輸出層內(nèi)部節(jié)點(diǎn)之間沒有連接關(guān)系。輸出層內(nèi)的每個(gè)神經(jīng)元與其鄰域連接,此鏈接是相互激勵(lì)的關(guān)系,訓(xùn)練后輸出層不同節(jié)點(diǎn)代表不同的分類模式。輸入層神經(jīng)元的數(shù)量由分類衡量指標(biāo)的個(gè)數(shù)決定。輸出層可以由一維或二維網(wǎng)絡(luò)矩陣方式組成。SOM神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖1所示。
圖1 SOM神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
圖1中,網(wǎng)絡(luò)上層有m×n=M個(gè)輸出神經(jīng)元,按二維形式排列成一個(gè)矩陣;輸入神經(jīng)元位于下層,有K個(gè)矢量,即K個(gè)神經(jīng)元,并且所有輸入神經(jīng)元到所有輸出神經(jīng)元之間都有權(quán)值連接。
SOM神經(jīng)網(wǎng)絡(luò)以無導(dǎo)師教學(xué)的方式進(jìn)行網(wǎng)絡(luò)訓(xùn)練,網(wǎng)絡(luò)通過自身訓(xùn)練,自動對輸入模式進(jìn)行分類。
1.3.2 SOM神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)SOM神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法包含競爭、合作和更新3個(gè)過程。
Ⅱ.在合作過程中,確定獲勝神經(jīng)元的加強(qiáng)中心。拓?fù)溧徲虻闹行木褪窃诟偁庍^程中得到的獲勝神經(jīng)元,在鄰域范圍內(nèi)的神經(jīng)元稱為興奮神經(jīng)元,即加強(qiáng)中心。
Ⅲ.在更新過程中,采用Hebb學(xué)習(xí)規(guī)則的改變形式,對網(wǎng)絡(luò)上獲勝神經(jīng)元拓?fù)溧徲騼?nèi)的神經(jīng)元進(jìn)行權(quán)值向量的更新。
SOM學(xué)習(xí)算法的具體步驟如下:
1.網(wǎng)絡(luò)初始化
用隨機(jī)數(shù)設(shè)定輸入層和輸出層之間權(quán)值的初始值。
2.輸入向量
把輸入向量X=(x1,x2,…,xN)T輸入給網(wǎng)絡(luò)的輸入層。
3.計(jì)算輸出層的權(quán)值向量和輸入向量的距離
這里,輸出層的第j個(gè)神經(jīng)元和輸入向量的距離,按下式給出:
(2)
式中ωij:輸入層的i神經(jīng)元和輸出層的j神經(jīng)元之間的連接權(quán)值。
4.選擇與權(quán)值向量的距離最小的神經(jīng)元
計(jì)算并選擇使輸入向量和權(quán)值向量的距離最小的神經(jīng)元,如dj為最小,將其稱為勝出神經(jīng)元,記為j*,并給出其鄰接神經(jīng)元集合。
5.權(quán)值的學(xué)習(xí)
勝出神經(jīng)元和其鄰接神經(jīng)元的權(quán)值,按下式更新:
Δωij=ηh(j,j*)(xi-ωij)
式中η:一個(gè)大于0小于1的常數(shù);h(j,j*):鄰域函數(shù),用下式表示:
(3)
式中σ2隨著學(xué)習(xí)的進(jìn)行而減小。因此,h(j,j*)的范圍,學(xué)習(xí)初期很寬,隨著學(xué)習(xí)的進(jìn)行而變窄。也就是說,隨著學(xué)習(xí)的進(jìn)行從粗調(diào)整向微調(diào)整變化。這樣,鄰域函數(shù)h(j,j*)可以起到產(chǎn)生有效映射的作用。
6.是否達(dá)到預(yù)先設(shè)定的要求
如達(dá)到要求則算法結(jié)束;否則,返回到步驟2,進(jìn)入下一輪學(xué)習(xí)。
在SOM中,由式(3)可見,勝出神經(jīng)元和其附近的神經(jīng)元全部接近當(dāng)時(shí)的輸入向量。學(xué)習(xí)初期,根據(jù)鄰域函數(shù)h(j,j*),在附近有很多神經(jīng)元,形成粗略的映射。隨著學(xué)習(xí)的進(jìn)行,h(j,j*)變窄,勝出神經(jīng)元附近的神經(jīng)元數(shù)變少,因此,接著繼續(xù)進(jìn)行局部微調(diào)整,空間分辨調(diào)高。
在本節(jié),首先取9個(gè)不同物種的線粒體NADH脫氫酸的蛋白質(zhì)序列按2.1,2.2進(jìn)行預(yù)處理,得到描述一種蛋白質(zhì)序列的5維向量L,然后輸入到SOM神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,最后進(jìn)行相似性分析。
2.1 數(shù)據(jù)來源
以9個(gè)不同物種的線粒體NADH脫氫酸為例說明上述模型的有效性。9個(gè)不同物種的線粒體NADH脫氫酶相關(guān)信息見表2。
表2 9個(gè)不同物種的線粒體NADH脫氫酶信息
根據(jù)表2提供的序列代碼,從NCBI上下載這9個(gè)不同物種的線粒體NADH脫氫酶的蛋白質(zhì)序列。
2.2 9個(gè)不同物種的線粒體NADH脫氫酶的蛋白質(zhì)序列的矩陣表示
現(xiàn)以Human的一段蛋白質(zhì)序列為例,說明蛋白質(zhì)序列的向量表示方法。Human的一段長度為10的蛋白質(zhì)序列:mtmhttmttl對應(yīng)的五字母序列片段為:iaiaaaiaai,運(yùn)用公式(1)并結(jié)合各理化指標(biāo)得到相應(yīng)的向量表示,進(jìn)而得到一個(gè)10×5的矩陣:
2.3 獲取9個(gè)不同物種的線粒體NADH脫氫酶的蛋白質(zhì)序列的中心坐標(biāo)
為避免數(shù)值的大小對實(shí)驗(yàn)的影響,對矩陣B的每列進(jìn)行歸一化,得到最終的矩陣:
P=
若對整個(gè)Human的蛋白質(zhì)序列進(jìn)行上述步驟,將會得到一個(gè)603×5的矩陣。對該矩陣運(yùn)用中心坐標(biāo)法得到一個(gè)5維的向量L=(0.6785,0.5291,0.6729,0.6982,0.567)′。
對其他8個(gè)不同物種的線粒體NADH脫氫酶的蛋白質(zhì)序列也做同樣的處理。
2.4 建立SOM神經(jīng)網(wǎng)絡(luò)
表3 9個(gè)物種的線粒體NADH脫氫酶的分類結(jié)果表
2.5 網(wǎng)絡(luò)模型的比較
本節(jié)與FenglanBai和TianmingWang在OnGraphicalandNumericalRepresentationofProteinSequences文章中提出的方法進(jìn)行對比。FenglanBai和TianmingWang首先把20個(gè)氨基酸放入正12面體上,在笛卡爾坐標(biāo)系下表示每個(gè)氨基酸的坐標(biāo),進(jìn)而運(yùn)用不變量方法得到一個(gè)對稱矩陣。再次求該矩陣前10大特征值,并將其作為一個(gè)10維的向量,利用歐氏距離對這10維向量進(jìn)行比較,最終得到9個(gè)不同物種的線粒體NADH脫氫酶的蛋白質(zhì)序列的相似性結(jié)果。表4顯示了9個(gè)物種的ND5 蛋白質(zhì)序列的10 維向量間的歐氏距離。其中H、G、P-C、C-C、F-W、B-W、R、M、O分別代表Human、Gorilla、PigmyChimpanzee、CommonChimpanzee、FinWhale、BlueWhale、Rat、Mouse、Opossum這9中不同的物種。
表4 9個(gè)物種的ND5 蛋白質(zhì)序列的10 維向量間的歐氏距離
從表4中可以看出Human-Gorilla,Human-PigmyChimpanzee,Human-CommonChimpanzee,F(xiàn)inWhale-BlueWhale對應(yīng)的歐氏距離值較小,表明它們之間的相似性較大。而有些數(shù)值與生物學(xué)的實(shí)際情況不大相符。例如Rat-BlueWhale,Mouse-FinWhale,Opossum-Gorilla之間的數(shù)值較小,這個(gè)結(jié)果與文獻(xiàn)[3]中的結(jié)果不相符合。而本文提出的方法對這9個(gè)物種的ND5 蛋白質(zhì)序列進(jìn)行了準(zhǔn)確的分類,結(jié)果與已知的進(jìn)化事實(shí)一致[13-14]。
本文提出了一種對蛋白質(zhì)進(jìn)行有效分類的模型,所提出的方法是更為直觀簡單、方便、快捷。結(jié)合氨基酸的中心坐標(biāo)法及其3個(gè)理化指標(biāo),文章給出了蛋白質(zhì)序列的5維向量表示,進(jìn)而建立SOM神經(jīng)網(wǎng)絡(luò)對蛋白質(zhì)序列進(jìn)行相似性分析。數(shù)值試驗(yàn)部分運(yùn)用新模型對9個(gè)物種的線粒體NADH脫氫酶進(jìn)行了正確合理的分類。當(dāng)然,在由蛋白質(zhì)序列轉(zhuǎn)化為5-字母序列的過程中, 可能會有一定信息的丟失。但也正是這種轉(zhuǎn)化, 才使得將DNA序列的圖形表示推廣到蛋白質(zhì)序列成為可能。
參考文獻(xiàn):
[1]Randic M, Zupan J, Balaban A T. Unique graphical representation of protein sequences based on nucleotide triplet codons [J]. Chemical Physics Letters, 2004, 397(1): 247-252.
[2]Randic M. 2-D graphical representation of proteins based on physic-chemical properties of amino acids [J]. Chemical Physics Letters, 2007, 440(10): 291-295.
[3]Yao Y H, Dai Q, Li C, et al. Analysis of similarity/ dissimilarity of protein sequences [J]. Proteins, 2008, 73(4): 864-871.
[4]Randic M, Butina D, Zupan J. Novel 2-D graphical representation of proteins [J]. Chemical Physics Letters, 2006, 419 (26): 528-532.
[5]E Hamori, J Ruskin, H curves. A novel method of representation of nucleotide series especially suited for long DNA sequences [J].J Biol Chem, 1983, 258(2): 1318.
[6]Bai F, Wang T. On graphical and numerical representation of protein in sequences [J]. Journal of Biomolecular Structure and Dynamics, 2006, 23(5): 537-546.
[7]Wang J, Wang W. A computational approach to simplifying the protein folding problem [J]. Nat Struct Biol, 1999, 6(11): 1033- 1038.
[8]Wang J, Wang W. Modeling study on the validity of a possibly simplified representation of proteins [J]. Physical Review E, 2000, 61(6): 6981-6986.
[9]Jeffrey H J. Chaos game representation of gene structure [J]. Nucleic Acids Research, 1990, 18(8): 2163-2170.
[10]Ping-an He, Jinzhou Wei, Yuhua Yao, et al. A novel graphical representation of proteins and its application [J]. Statistical Mechanics and its Applications, 2012, 391(1): 93-99.
[11]Tingting Ma, Yuxin Liu, Qi Dai, et al. A graphical representation of protein based on a novel iterated function system[J]. Statistical Mechanics and its Applications, 2014, 403(1): 21-28.
[12]Ping-an He, Dan Li, Yanping Zhang, et al.A 3D graphical representation of protein sequences based on the Gray code [J]. Theoretical Biology, 2012, 304(7): 81-87.
[13]Pavel Duda, Jan Zrzavy.Evolution of life history and behavior in Hominidae: Towards phylogenetic reconstruction of the chimpanzee-human last common ancestor [J]. Human Evolution, 2013, 65(8): 424-446.
[14]Berger W H.Cenozoic cooling, Antarctic nutrient pump, and the evolution of whales [J].Deep-Sea Research, 2007,54(1): 2399-2421.
[15]Jia Wen, YuYan Zhang. A 2D graphical representation of protein sequence and its numerical characterization [J]. Chemical Physics Letters, 2009, 476(4-6): 281-286.
[16]He Xiao-Mei, Qin Zheng, Chen Jun, et al. New method expression of protein sequence and its application for protein sub-cellular localization prediction [J]. Computational and Theoretical Nanoscience, 2014, 11(3): 873-877.
責(zé)任編輯陳呈超
基金項(xiàng)目:? 國家自然科學(xué)基金項(xiàng)目(61303145);中央高?;究蒲袠I(yè)務(wù)經(jīng)費(fèi)項(xiàng)目(201362031)資助
收稿日期:2014-07-07;
修訂日期:2015-05-20
作者簡介:劉瓏龍(1966-),女,副教授。E-mail: liulonglong98@hotmail.com
中圖法分類號:Q51
文獻(xiàn)標(biāo)志碼:A
文章編號:1672-5174(2016)07-130-06
DOI:10.16441/j.cnki.hdxb.20140227
A Model of Protein Sequences Based on SOM Neural Network
LIU Long-Long, MA Meng, LIU Mao-Juan
(School of Mathematical Sciences, Ocean University of China, Qingdao 266100,China)
Abstract:Combined the arrangement of amino acid with its physicochemical properties, we propose a new clustering model based on SOM neural network in the article, which is more accurate and reasonable to similarity analysis on protein sequences. First of all, the protein sequence is stransform into an 5- letter sequence using the method of Wang and Wang. The 5 letters are uniformly distributed in the unit circle centered on the origin, and then we can get two position coordinates of protein sequences x,y. Next, combined with 3 physicochemical indexes of amino acid, a 5- dimensional vector will be got to represent an amino aci. Finally,using SOM neural network to do cluster analysis of different protein vectors. At the end of this paper, numerical test is carry out to similarity analysis of mitochondrial NADH dehydrogenase from 9 different protein sequences. And the experimental results verify validity of the model in a certain extent.
Key words:Protein sequence; physicochemical properties; SOM neural network;similarity analysis
Supported by the National Natural Science Foundation of China(61303145);and the Fundemental Research Funds for Central Universities(201362031)