陳行健,胡雪嬌,薛衛(wèi)
?
基于多層次稀疏編碼預(yù)測蛋白質(zhì)亞細胞定位
陳行健,胡雪嬌,薛衛(wèi)
南京農(nóng)業(yè)大學(xué) 信息科學(xué)技術(shù)學(xué)院,江蘇 南京 210095
陳行健, 胡雪嬌, 薛衛(wèi). 基于多層次稀疏編碼預(yù)測蛋白質(zhì)亞細胞定位. 生物工程學(xué)報, 2019, 35(4): 687–696.Chen XJ, Hu XJ, Xue W. Prediction of protein subcellular localization based on multilayer sparse coding. Chin J Biotech, 2019, 35(4): 687–696.
文中提出了一種簡單有效的蛋白質(zhì)亞細胞區(qū)間定位預(yù)測方法,為進一步了解蛋白質(zhì)的功能和性質(zhì)提供理論基礎(chǔ)。運用稀疏編碼,結(jié)合氨基酸組成信息提取蛋白質(zhì)序列特征,基于不同字典大小對得到的特征進行多層次池化整合,并送入支持向量機進行分類。經(jīng)Jackknife檢驗,在數(shù)據(jù)集ZD98、CH317和Gram1253上的預(yù)測成功率分別達到95.9%、93.4%和94.7%。實驗證明基于多層次稀疏編碼的分類預(yù)測算法能顯著提高蛋白質(zhì)亞細胞區(qū)間定位的預(yù)測精度。
稀疏編碼,氨基酸組成,多層次池化,支持向量機,亞細胞區(qū)間定位
蛋白質(zhì)作為生物體的基本組成物質(zhì),在生命活動中發(fā)揮著重要作用。蛋白質(zhì)的功能與其亞細胞區(qū)間密切相關(guān),不同蛋白質(zhì)只有處于特定亞細胞區(qū)間才能發(fā)揮其功能,因而通過已有方法預(yù)測確定某種蛋白質(zhì)所處的亞細胞區(qū)間,對明確蛋白質(zhì)的功能和性質(zhì)、認識蛋白質(zhì)間的相互作用具有重要意義[1]。隨著蛋白序列數(shù)據(jù)的不斷增加,使用傳統(tǒng)人工實驗手段獲取蛋白質(zhì)亞細胞區(qū)間位置已遠不能滿足科研需要,這促使了機器學(xué)習(xí)在蛋白質(zhì)亞細胞定位預(yù)測中的發(fā)展。
通過對目前研究現(xiàn)狀的分析,可將近年來使用機器學(xué)習(xí)方法對蛋白質(zhì)亞細胞區(qū)間進行預(yù)測的研究方向大致分為兩類,分別為序列特征提取和分類模型構(gòu)建[2]。目前用于蛋白質(zhì)序列的特征提取算法主要有氨基酸組成 (Aminoacidcomposition,AAC)、偽氨基酸組成 (Pseudo amino acid composition,PseAAC)、基因本體 (Gene ontology, GO)、位置特異性得分矩陣 (Position specific scoring matrix,PSSM) 和基于不同特征的融合等。如Zhou等基于Mahalanobis距離提取蛋白質(zhì)序列的組分信息,使用斜變判別函數(shù)對蛋白質(zhì)亞細胞區(qū)間進行預(yù)測,在Jackknife檢驗下ZD98數(shù)據(jù)集上的準確率約為72.5%[3];Wan等提出了GOASVM算法,基于GO注釋信息與蛋白非相鄰區(qū)域的同源性來表示蛋白質(zhì)序列,取得了較好的效果[4];Chen等采用混合增量的方式對蛋白質(zhì)序列的N端、C端以及疏水性3種特征進行融合,在ZD98和CH317數(shù)據(jù)集上的成功率分別為90.8%和82.7%[5];Zhao等提出蛋白質(zhì)序列的詞袋特征,將詞袋模型與基于偽氨基酸組成的特征提取算法相結(jié)合,獲得了較高的準確率[6]。同時,在分類預(yù)測模型方面,國內(nèi)外研究者也開展了大量工作,如Wan等通過GO數(shù)據(jù)庫的注釋信息,提出自適應(yīng)決策支持向量機,實現(xiàn)了對多功能膜蛋白序列的區(qū)間預(yù)測[7];Ali等提取蛋白質(zhì)序列的偽氨基酸特征,采用區(qū)間投票、最鄰近算法和概率神經(jīng)網(wǎng)絡(luò)等多種分類器進行對比預(yù)測,取得了較好的結(jié)果[8];除此之外還有基于邏輯回歸、貝葉斯集成和長短期記憶網(wǎng)絡(luò)等多種分類模型的預(yù)測方法[9-11]。
總結(jié)前人研究成果可發(fā)現(xiàn),能否準確描述蛋白質(zhì)序列特征直接影響了最終分類器的預(yù)測效果。由于蛋白質(zhì)序列中包含的信息量較大,且分屬同一亞細胞區(qū)間的序列長度不等,序列特征分布不均,導(dǎo)致單一使用傳統(tǒng)蛋白質(zhì)序列特征提取算法的分類結(jié)果不佳。而對于一些較為復(fù)雜的特征融合及其改進算法,雖然取得了較高的準確率,但特征提取過程復(fù)雜,且最終得到的特征向量維數(shù)較大,造成分類器的時間和空間復(fù)雜度過高。因此,本研究結(jié)合氨基酸組分信息,提出一種基于多層次稀疏編碼的蛋白質(zhì)序列特征提取算法,該算法能夠基于簡單的AAC方法對蛋白質(zhì)序列進行稀疏表示,進而提取序列底層特征;根據(jù)不同字典大小對特征進行多層次池化整合,能有效增加序列特征的區(qū)分性;將得到的特征向量經(jīng)主成分分析 (Principalcomponentanalysis, PCA) 降維,能在選取有效特征的同時降低算法的計算量。最后將得到的特征向量送入分類器進行分類。實驗結(jié)果表明,本方法不僅能簡化特征提取過程,降低分類器的時間及空間復(fù)雜度,也能更加全面地反映序列特征,提高分類性能。
為了對本文算法進行客觀評價,方便與同類算法進行對比,采用近年來相關(guān)領(lǐng)域中使用最多且國際公認有效的ZD98和CH317作為實驗基準數(shù)據(jù)集[12-19],其中ZD98由Zhou和Doctor[3]構(gòu)建,共有98條蛋白質(zhì)序列,分為4個亞細胞定位類別,分別是細胞質(zhì)蛋白 (Cytoplasmic proteins,Cy) 43條、線粒體蛋白 (Mitochondrial proteins, Mi) 13條、細胞膜蛋白 (Membrane proteins, Me) 30條和其他類蛋白 (Other) 12條。CH317是由Chen和Li[5]構(gòu)建,分為6個亞細胞定位類別,共有317條蛋白質(zhì)序列,分別是分泌蛋白 (Secreted proteins,Se) 17條、細胞核蛋白 (Nuclear proteins,Nu) 52條、細胞質(zhì)蛋白 (Cytoplasmic proteins,Cy) 112條、內(nèi)質(zhì)網(wǎng)蛋白 (Endoplasmic reticulum proteins,En) 47條、膜蛋白 (Membrane proteins,Me) 55條和線粒體蛋白 (Mitochondrial proteins,Mi) 34條。
考慮到上述數(shù)據(jù)集構(gòu)建時間較長,參考Wang等的方法對ZD98和CL317數(shù)據(jù)集進行了更新[12],刪除了部分重復(fù)及錯誤序列,其具體方法不再復(fù)述。經(jīng)處理后ZD98數(shù)據(jù)集剩余96條蛋白質(zhì)序列,CH317數(shù)據(jù)集剩余314條蛋白質(zhì)序列。此外,為了對算法進行進一步評估,除了上述兩個數(shù)據(jù)集外,本研究還采用了Xue等按照同樣標準構(gòu)建的Gram1253數(shù)據(jù)集進行測試[20]。Gram1253數(shù)據(jù)集共包含1 253條蛋白質(zhì)序列,分為Me、Cy、Nu、Se及細胞周質(zhì) (Periplasm,Pe) 等5個亞細胞定位類別。以上3種數(shù)據(jù)集中的所有蛋白質(zhì)序列均來自最新版本的UniProt數(shù)據(jù)庫 (Release 2018_08),其具體區(qū)間分布如表1所示。
將稀疏編碼引入蛋白質(zhì)亞細胞區(qū)間定位預(yù)測中,目的是在每條蛋白序列與相應(yīng)的數(shù)值向量間建立一種能夠更為準確表達此條蛋白序列特征的映射關(guān)系?;诙鄬哟蜗∈杈幋a的特征提取算法主要包括局部特征提取、稀疏編碼和多層次池化等3個步驟。首先對蛋白質(zhì)序列進行分割處理得到若干個序列單詞,使用傳統(tǒng)蛋白質(zhì)特征提取算法對序列單詞進行特征編碼得到特征單詞,然后選取部分特征單詞作為局部特征塊學(xué)習(xí)字典,用字典對原始序列特征進行稀疏表示。采用平均池化的方法對稀疏矩陣降維,將基于不同字典大小得到的特征向量進行組合,即為蛋白質(zhì)序列的最終特征表示。其提取流程如圖1所示。
表1 三種數(shù)據(jù)集中不同區(qū)間的蛋白質(zhì)序列條數(shù)
1.2.1 局部特征提取
圖1 稀疏編碼特征提取流程
在進行稀疏編碼過程之前,首先需要提取蛋白質(zhì)序列的局部特征作為特征塊,組成訓(xùn)練樣本構(gòu)造字典。由于每條蛋白質(zhì)序列長度不等,其主要特征可能分布在序列的不同位置,因此參考Zhao等的方法[6]采用滑動窗口分割法對原始蛋白質(zhì)序列進行切分得到序列單詞?;瑒哟翱诜指罘窗凑找欢ㄩL度對每條蛋白質(zhì)序列進行切片,通過設(shè)定窗口大小和滑動間距得到若干個序列單詞,經(jīng)特征提取后得到特征單詞集合形成構(gòu)建字典的基礎(chǔ)。這種方法能完整地保留蛋白質(zhì)序列的全部信息。本研究取滑動間隔為1,滑動窗口大小決定序列單詞長度,需滿足以下條件:
切分后每條蛋白質(zhì)序列被表示為若干個長度相等的序列單詞,運用已有的蛋白質(zhì)序列特征提取算法統(tǒng)計序列單詞的組分信息,即可得到相應(yīng)的特征單詞。Nakashima和Nishikawa[21]最早將氨基酸組成和蛋白質(zhì)亞細胞區(qū)間定位預(yù)測聯(lián)系起來,提出AAC編碼方式,統(tǒng)計每個氨基酸殘基在蛋白質(zhì)序列中出現(xiàn)的頻率,其定義如下:
通過AAC算法計算蛋白質(zhì)序列P的序列單詞特征,將每條蛋白質(zhì)序列的所有特征單詞進行組合,則每條序列都被表示為一個片段特征矩陣,如公式 (4) 所示:
1.2.2 稀疏編碼
得到由蛋白質(zhì)序列的局部特征組成的訓(xùn)練樣本之后,下一步即是對這些訓(xùn)練樣本進行稀疏編碼。稀疏編碼是一種無監(jiān)督的機器學(xué)習(xí)算法,通過在高維數(shù)據(jù)中尋找一組超完備的基向量來對樣本進行稀疏表示,主要分為字典學(xué)習(xí)和稀疏重構(gòu)兩個過程。其公式表示如下:
本研究采用K-SVD算法訓(xùn)練字典。K-SVD算法是由Aharon等提出的一種基于K-means算法擴展而來的字典學(xué)習(xí)算法[22],其實質(zhì)是迭代交替學(xué)習(xí)字典原子并優(yōu)化其相應(yīng)的稀疏系數(shù)。該算法要經(jīng)過次迭代,每次迭代時都需要對誤差項進行奇異值分解,采用逐列更新的方式對字典進行優(yōu)化,每次只更新其中的一個原子和其對應(yīng)的稀疏系數(shù),選擇使重構(gòu)誤差最小的分解項作為新的元素值,經(jīng)過不斷迭代得到最優(yōu)化的解。K-SVD算法主要分為以下幾個步驟:(1) 隨機初始化字典,設(shè)置迭代終止條件;(2) 固定字典,求解稀疏矩陣;(3) 固定稀疏矩陣,求解字典;(4) 交替執(zhí)行步驟 (2) 和 (3),直至迭代結(jié)束。
得到字典后,通常使用正交匹配追蹤 (Orthogonalmatchingpursuit,OMP) 算法,求得原始樣本的稀疏矩陣。OMP算法的核心思想是在每次迭代過程中使用最小二乘法對原始樣本進行稀疏逼近,選擇字典中最匹配的基元對其進行稀疏重構(gòu),求出殘差并繼續(xù)選擇下一個最匹配的基元。這種更新方式能保證在下一次迭代過程中不會重復(fù)選擇相同基元,在一定程度上加快了算法的收斂速度,克服了傳統(tǒng)匹配追蹤 (Matchingpursuit,MP) 算法容易陷入局部最優(yōu)解的問題。
1.2.3 多層次池化
經(jīng)稀疏編碼后所得到的稀疏矩陣維度較高,如果直接展開進行串接表示數(shù)據(jù)量過大,訓(xùn)練分類器時的內(nèi)存和時間消耗代價過高。所以需要對特征矩陣進行降維,通常使用池化方法。池化是指把特征向量集映射為單個向量的過程,對不同位置的特征進行聚合統(tǒng)計,能提取有效特征,減少計算量。常用的池化算法有最大池化 (Max-pooling)[23]和平均池化 (Mean-pooling)[24]。Max-pooling即對鄰域內(nèi)的特征點取最大值,能更多地保留矩陣的邊緣信息。而Mean-pooling則是對鄰域內(nèi)特征點求平均值,能更多地保留矩陣的背景信息??紤]到序列數(shù)據(jù)的特殊性,本研究選擇Mean-pooling作為最終的池化方法。公式表示如下:
為了方便與其他算法進行對比,選擇支持向量機 (Support vector machine, SVM) 建立分類模型。SVM是Vapnik領(lǐng)導(dǎo)的AT&T Bell實驗室在1995年提出的一種基于統(tǒng)計學(xué)習(xí)理論的分類方法,通過核函數(shù)將輸入樣本從原空間非線性映射到高維特征空間,利用線性方法解決非線性問題,在高維特征空間中構(gòu)造最優(yōu)分類超平面,在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出強大的泛化能力[25]。蛋白質(zhì)序列經(jīng)特征編碼后,使用LIBSVM通用軟件包,基于一對一算法 (One-versus-one) 構(gòu)造SVM多類分類器,在訓(xùn)練階段為任意兩類樣本設(shè)計一個SVM,則個類別的數(shù)據(jù)集就需要設(shè)計(–1)/2個SVM。當對一個未知樣本進行分類時,最后取得票最多的類別為該未知樣本的類別。運用SVM進行蛋白質(zhì)亞細胞區(qū)間定位預(yù)測的流程圖如圖2所示。
將數(shù)據(jù)集中的樣本分為訓(xùn)練樣本和預(yù)測樣本,先送入訓(xùn)練樣本的特征向量,設(shè)定輸出為相應(yīng)的亞細胞定位y,訓(xùn)練SVM,確定模型參數(shù),再送入預(yù)測樣本的特征向量,SVM分類器會給出一個預(yù)測結(jié)果,用x表示,若x=y,則預(yù)測正確,若x≠y,則預(yù)測錯誤,最后統(tǒng)計整個數(shù)據(jù)集的預(yù)測準確率作為蛋白質(zhì)亞細胞區(qū)間定位的評價指標。
圖2 基于SVM的亞細胞定位預(yù)測流程
為了驗證方法的有效性,采用Jackknife進行假設(shè)檢驗。Jackknife是蛋白質(zhì)亞細胞定位預(yù)測研究中公認且使用最多的一種測試方法[12-20],每次僅用一條序列作為測試集進行驗證,其余全部序列作為訓(xùn)練集送入分類器進行訓(xùn)練,以此類推直至所有序列均預(yù)測完畢,是一種客觀有效的假設(shè)檢驗方法[26]。為了便于比較實驗結(jié)果,同時對預(yù)測方法進行有效評估,引入敏感性 (Sensitivity, Se)、特異性 (Specificity, Sp) 和相關(guān)系數(shù) (Matthews correlation coefficient, MCC) 等3個評價指標,并統(tǒng)計總的預(yù)測準確率 (Overall accuracy, OA),定義如下[27]:
其中,TP是第類亞細胞區(qū)間預(yù)測正確的序列條數(shù),FN是第類亞細胞區(qū)間預(yù)測錯誤的序列條數(shù),FP是非第類亞細胞區(qū)間但被預(yù)測為第類區(qū)間的序列條數(shù),TN是被正確預(yù)測的非第類亞細胞區(qū)間的序列條數(shù),為亞細胞類別總數(shù)。
在使用PCA對最終的特征向量進行選擇時,維數(shù)的設(shè)置對于整個算法的準確度存在一定影響。選取的維數(shù)越多,包含的特征就越多,但可能造成分類器的訓(xùn)練時間過長;維數(shù)越小,則越有可能丟失一些真正有意義的特征,影響分類效果。因此需要通過實驗尋求一個最優(yōu)的值。 圖3顯示了數(shù)據(jù)集ZD98、CH317和Gram1253在PCA進行特征選擇過程中分別取不同的值所對應(yīng)的預(yù)測準確率。在特征向量的維數(shù)較低時,3個數(shù)據(jù)集的預(yù)測準確率也相對較低,在維數(shù)高于某一確定值時,預(yù)測準確率也隨之降低。在維數(shù)取60到70之間時,在ZD98、CH317和Gram1253數(shù)據(jù)集上的預(yù)測準確率均達到最大且趨于穩(wěn)定,當前的值即為最優(yōu)值。本研究使用的3種數(shù)據(jù)集的最優(yōu)值分別為60、65和65。
將本方法在ZD98、CH317和Gram1253數(shù)據(jù)集上采用Jackknife進行實驗的預(yù)測結(jié)果列于表1中,為了進一步說明本文方法的有效性,表中分別列出了3個數(shù)據(jù)集在各個亞細胞區(qū)間進行預(yù)測得到的不同實驗結(jié)果。
由表1可知,本方法在3個數(shù)據(jù)集上均獲得了較好的實驗結(jié)果,總的準確率分別達到了95.9%、93.4%和94.7%,實驗證明本方法能有效增加蛋白質(zhì)亞細胞區(qū)間定位預(yù)測的準確率。同時為了方便進行對比,將部分同領(lǐng)域內(nèi)基于蛋白質(zhì)序列特征提取的改進算法得到的實驗結(jié)果也一并列出。
圖3 基于不同維度的預(yù)測準確率
表1 數(shù)據(jù)集實驗結(jié)果
從表2可以看出,在ZD98數(shù)據(jù)集上本文算法相比DCC、OF和DE等復(fù)雜的特征融合算法在總體預(yù)測精度上最大提升了約7個百分點,在Cyto這一亞細胞類上的預(yù)測準確率達到了100%,預(yù)測全部正確,且整體預(yù)測準確率方面也均優(yōu)于其他方法。將本方法與BOW、GA和OA等改進算法的實驗結(jié)果進行對比,在相同數(shù)據(jù)集上的準確率也都提高了約2到5個百分點,實驗表明本文算法較基于傳統(tǒng)蛋白質(zhì)序列特征提取的改進算法仍具有顯著優(yōu)勢。通過表3的比較可以看出,在CH317數(shù)據(jù)集上,本文算法在Mito這一亞細胞類上的預(yù)測準確率最高達到了97.1%,相比其他算法最大提升了約14.7個百分點,在Nucl這一亞細胞類上的準確率最高也提升了12.3個百分點,這一實驗結(jié)果也充分說明了本文算法對少數(shù)類別序列進行特征提取的有效性,使得序列底層特征更加具有區(qū)分性。對比BOW、IAC和CF等改進算法,在總預(yù)測準確率上均提升了2–4個百分點,進一步表明通過多層次池化分別提取序列的整體和局部信息,能有效提高蛋白質(zhì)亞細胞定位預(yù)測精度。對于較大數(shù)據(jù)集Gram1453而言,本文引用了文獻[20]中基于不同蛋白質(zhì)序列特征提取算法的實驗結(jié)果進行對比,如AAC、Dipe和PseAAC等,同時也基于PSSM特征進行了相關(guān)的對比實驗,如PSSM_SVM等,表4結(jié)果表明,本方法在各個區(qū)間類別的預(yù)測率上均有一定提高,且相較于傳統(tǒng)算法,如PSSM_SVM和BLAST_KNN等,本文方法不需要依靠復(fù)雜工具實現(xiàn),在算法的可移植性上也具有明顯優(yōu)勢。
表2 ZD98數(shù)據(jù)集預(yù)測結(jié)果比較
表3 CH317數(shù)據(jù)集預(yù)測結(jié)果比較
與傳統(tǒng)蛋白質(zhì)序列特征提取及其改進方法相比,本文算法時間及空間復(fù)雜度低,在較簡單的 AAC特征下也能取得較好的效果,且通過平均池化提取特征序列特征矩陣的背景信息,將不同層次特征進行整合后經(jīng)PCA降維,得到一種低維向量的形式反映序列特征的分布規(guī)律,能顯著提高大數(shù)據(jù)處理的效率。
表4 Gram1253數(shù)據(jù)集預(yù)測結(jié)果比較
蛋白質(zhì)亞細胞定位預(yù)測一直是國內(nèi)外生物信息學(xué)專家研究的熱點方向。本研究在傳統(tǒng)蛋白質(zhì)序列特征提取算法AAC的基礎(chǔ)上,提出了一種基于多層次稀疏編碼的蛋白質(zhì)序列特征提取算法對序列特征進行優(yōu)化整合。相比其他算法,本方法提取過程簡單,不需要經(jīng)過復(fù)雜的特征融合步驟也能得到較高的預(yù)測準確率,且最后使用PCA對特征向量進行降維,在提高準確率的同時也降低了分類器的時間及空間復(fù)雜度。算法的主要流程包括:首先使用滑動窗口分割法對蛋白質(zhì)序列進行切分提取序列單詞,結(jié)合傳統(tǒng)蛋白質(zhì)特征提取算法對序列單詞進行特征編碼;采用K-SVD算法對序列單詞特征進行字典學(xué)習(xí),再通過OMP算法對序列特征矩陣進行稀疏表示;基于不同字典大小對特征矩陣進行多層次平均池化,分別幫助提取稀疏矩陣的整體信息和局部信息;使用SVM多類分類器對蛋白的亞細胞區(qū)間位置進行分類預(yù)測。實驗表明,本文算法能在絕大部分亞細胞區(qū)間的預(yù)測成功率上獲得較好的效果,對提升傳統(tǒng)蛋白質(zhì)序列特征提取算法的特征表達能力方面具有重要指導(dǎo)意義,是一種較為有效的蛋白質(zhì)亞細胞區(qū)間預(yù)測方法。算法的源代碼和所用數(shù)據(jù)集均可從https://github.com/Multisc/Multi_sc_subloc/ tree/master獲取。
[1] Xu YY, Yang F, Shen HB. Incorporating organelle correlations into semi-supervised learning for protein subcellular localization prediction. Bioinformatics, 2016, 32(14): 2184–2192.
[2] Wei L, Ding Y, Su R, et al. Prediction of human protein subcellular localization using deep learning. Journal of Parallel & Distributed Computing, 2018, 117: 212–217.
[3] Zhou GP, Doctor K. Subcellular location prediction of apoptosis proteins. Proteins, 2003, 50(1): 44–48.
[4] Wan SB, Mak MW, Kung SY. GOASVM: a subcellular location predictor by incorporating term-frequency gene ontology into the general form of Chou’s pseudo-amino acid composition. J Theor Biol, 2013, 323: 40–48.
[5] Chen YL, Li QZ. Prediction of the subcellular location of apoptosis proteins. J Theor Biol, 2007, 245(4): 775–783.
[6] Zhao N, Zhang L, Xue W, et al. Application of bag of words model in the prediction of protein subcellular location. J Food Sci Biotechnol, 2017, 36(3): 296–301 (in Chinese). 趙南, 張梁, 薛衛(wèi), 等. 詞袋模型在蛋白質(zhì)亞細胞定位預(yù)測中的應(yīng)用. 食品與生物技術(shù)學(xué)報, 2017, 36(3): 296–301.
[7] Wan SB, Mak MW, Kung SY. Mem-ADSVM: a two-layer multi-label predictor for identifying multi-functional types of membrane proteins. J Theor Biol, 2016, 398: 32–42.
[8] Ali F, Hayat M. Classification of membrane protein types using Voting feature interval in combination with Chou’s pseudo amino acid composition. J Theor Biol, 2015, 384: 78–83.
[9] Wan SB, Mak MW, Kung SY. mPLR-Loc: an adaptive decision multi-label classifier based on penalized logistic regression for protein subcellular localization prediction. Anal Biochem, 2015, 473: 14–27.
[10] Sáez-Atienzar S, Martínez-Gómez J, Alonso-Barba JI, et al. Automatic quantification of the subcellular localization of chimeric GFP protein supported by a two-level Naive Bayes classifier. Expert Syst Appl, 2015, 42(3): 1531–1537.
[11] S?nderby SK, S?nderby CK, Nielsen H, et al. Convolutional LSTM networks for subcellular localization of proteins//2nd International Conference on Algorithms for Computational Biology. Mexico City, Mexico: Springer, 2015: 68–80.
[12] Wang X, Li H, Zhang QW, et al. Predicting subcellular localization of apoptosis proteins combining go features of homologous proteins and distance weighted KNN classifier. BioMed Res Int, 2016, 2016: 1793272.
[13] Zhang SL, Duan X. Prediction of protein subcellular localization with oversampling approach and Chou’s general PseAAC. J Theor Biol, 2018, 437: 239–250.
[14] Xiang QL, Bo L, Li XH, et al. Subcellular localization prediction of apoptosis proteins based on evolutionary information and support vector machine. Artif Intell Med, 2017, 78: 41–46.
[15] Dai Q, Ma S, Hai YB, et al. A segmentation based model for subcellular location prediction of apoptosis protein. Chemom Intell Lab Syst, 2016, 158: 146–154.
[16] Zhang SL, Jin J. Prediction of protein subcellular localization by using λ-order factor and principal component analysis. Lett Org Chem, 2017, 14(9): 717–724.
[17] Liang YY, Zhang SL. Prediction of apoptosis protein’s subcellular localization by fusing two different descriptors based on evolutionary information. Acta Biotheor, 2018, 66(1): 61–78.
[18] Zhang SL, Liang YY. Predicting apoptosis protein subcellular localization by integrating auto-cross correlation and PSSM into Chou’s PseAAC. J Theor Biol, 2018, 457: 163–169.
[19] Liang YY, Liu SY, Zhang SL. Geary autocorrelation and DCCA coefficient: application to predict apoptosis protein subcellular localization via PSSM. Phys A, 2017, 467: 296–306.
[20] Xue W, Wang XF, Zhao N, et al. Prediction of protein subcellular locations by ensemble of improved K-nearest neighbor. Chin J Biotech, 2017, 33(4): 683–691 (in Chinese). 薛衛(wèi), 王雄飛, 趙南, 等. 集成改進 KNN 算法預(yù)測蛋白質(zhì)亞細胞定位. 生物工程學(xué)報, 2017, 33(4): 683–691.
[21] Nakashima H, Nishikawa K. Discrimination of intracellular and extracellular proteins using amino acid composition and residue-pair frequencies. J Mol Biol, 1994, 238(1): 54–61.
[22] Aharon M, Elad M, Bruckstein A.: an algorithm for designing overcomplete dictionaries for sparse representation. IEEE Trans Signal Process, 2006, 54(11): 4311–4322.
[23] Liu YH, Cheng JY, Ma YM, et al. Protein secondary structure prediction based on two dimensional deep convolutional neural networks//2017 3rd IEEE International Conference on Computer and Communications. Chengdu, China: IEEE, 2017: 1995–1999.
[24] Chen YH. Long sequence feature extraction based on deep learning neural network for protein secondary structure prediction//2017 IEEE 3rd Information Technology and Mechatronics Engineering Conference. Chongqing, China: IEEE, 2017: 843–847.
[25] Silva MFM, Leijoto LF, Nobre CN. Algorithms analysis in adjusting the SVM parameters: an approach in the prediction of protein function. Appl Artif Intell, 2017, 31(4): 316–331.
[26] Ding H, Liang ZY, Guo FB, et al. Predicting bacteriophage proteins located in host cell with feature selection technique. Comput Biol Med, 2016, 71: 156–161.
[27] Xu YY, Yao LX, Shen HB. Bioimage-based protein subcellular location prediction: a comprehensive review. Front Comput Sci, 2018, 12(1): 26–39.
[28] Liang YY, Liu SY, Zhang SL. Detrended cross-correlation coefficient: application to predict apoptosis protein subcellular localization. Math Biosci, 2016, 282: 61–67.
[29] Chen HW, Chen X, Hu QM, et al. Predicting protein subcellular location based on a novel sequence numerical model. J Comput Theor Nanosci, 2015, 12(1): 82–87.
Predictionof protein subcellular localization based on multilayer sparse coding
Xingjian Chen, Xuejiao Hu, and Wei Xue
School of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095, Jiangsu, China
In order to provide a theoretical basis for better understanding the function and properties of proteins, we proposed a simple and effective feature extraction method for protein sequences to determine the subcellular localization of proteins. First, we introduced sparse coding combined with the information of amino acid composition to extract the feature values of protein sequences. Then the multilayer pooling integration was performed according to different sizes of dictionaries. Finally, the extracted feature values were sent into the support vector machine to test the effectiveness of our model. The success rates in data set ZD98, CH317 and Gram1253 were 95.9%, 93.4% and 94.7%, respectively as verified by the Jackknife test. Experiments showed that our method based on multilayer sparse coding can remarkably improve the accuracy of the prediction of protein subcellular localization.
sparse coding, amino acid composition, multilayer pooling, support vector machine, subcellular localization prediction
10.13345/j.cjb.180403
September 30, 2018;
October 29, 2018
National Key Technology R&D Program of China (No. 2017YFD0800204), the Fundamental Research Funds for the Central Universities (No. KYZ201600175).
Wei Xue. Tel: +86-25-84396350; E-mail: xwsky@njau.edu.cn
國家重點研發(fā)計劃 (No. 2017YFD0800204),中央高?;究蒲袠I(yè)務(wù)費專項資金 (No. KYZ201600175) 資助。
2018-12-08
http://kns.cnki.net/kcms/detail/11.1998.Q.20181207.0950.002.html
(本文責編 陳宏宇)