趙 南, 張 梁, 薛 衛(wèi)*, 王雄飛, 任守綱
(1.南京農(nóng)業(yè)大學(xué) 信息科學(xué)技術(shù)學(xué)院,江蘇 南京210095;2.江南大學(xué) 糧食發(fā)酵工藝與技術(shù)國(guó)家工程實(shí)驗(yàn)室,江蘇 無(wú)錫214122)
詞袋模型在蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)中的應(yīng)用
趙 南1, 張 梁2, 薛 衛(wèi)*1, 王雄飛1, 任守綱1
(1.南京農(nóng)業(yè)大學(xué) 信息科學(xué)技術(shù)學(xué)院,江蘇 南京210095;2.江南大學(xué) 糧食發(fā)酵工藝與技術(shù)國(guó)家工程實(shí)驗(yàn)室,江蘇 無(wú)錫214122)
運(yùn)用詞袋模型結(jié)合傳統(tǒng)的蛋白質(zhì)特征提取算法提取蛋白質(zhì)序列特征,采用K-means算法構(gòu)建字典,計(jì)算獲得蛋白質(zhì)序列的詞袋特征,最終將提取的特征值送入SVM多類(lèi)分類(lèi)器,對(duì)數(shù)據(jù)集中蛋白質(zhì)的亞細(xì)胞位置進(jìn)行預(yù)測(cè),在一定程度上提高了亞細(xì)胞定位預(yù)測(cè)的準(zhǔn)確率。
詞袋模型;K-means;支持向量機(jī);亞細(xì)胞定位預(yù)測(cè)
人類(lèi)對(duì)生命科學(xué)的研究因計(jì)算機(jī)技術(shù)的蓬勃發(fā)展發(fā)生了巨大變化,自從進(jìn)入后基因組時(shí)代,人類(lèi)獲得了大規(guī)模的核酸和蛋白質(zhì)序列數(shù)據(jù),借助先進(jìn)高效的計(jì)算機(jī)自動(dòng)化數(shù)據(jù)處理技術(shù)[1]從這些海量數(shù)據(jù)中挖掘有效信息成為必然趨勢(shì)。國(guó)內(nèi)外學(xué)者在以往的研究中,主要采用數(shù)學(xué)方法描述提取的蛋白質(zhì)序列特征信息,用高維的特征向量表示蛋白質(zhì)序列,然后設(shè)計(jì)使用高效的分類(lèi)器進(jìn)行預(yù)測(cè)分析。
目前,用于蛋白質(zhì)序列特征提取的算法主要包括:氨基酸組成(AAC)、氨基酸的物化特性、二肽及多肽組成、偽氨基酸組成(PseAAC)以及不同特征的融合等[2-6]。如Lin等[4]的蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)研究采用了四肽信息;楊會(huì)芳等[5]在預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位中采用了分段偽氨基酸的特征提取方法;Gao等[6]通過(guò)尋找蛋白質(zhì)不同結(jié)構(gòu)與物化特性的最佳組合來(lái)區(qū)分外膜蛋白。同時(shí),在預(yù)測(cè)算法的設(shè)計(jì)方面國(guó)內(nèi)外研究者開(kāi)展了大量工作,統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法在已有的預(yù)測(cè)算法中得到了充分應(yīng)用,如陳穎麗等[7]在6類(lèi)細(xì)胞凋亡蛋白的亞細(xì)胞定位研究中使用了離散增量結(jié)合支持向量機(jī)的方法;還有基于人工神經(jīng)網(wǎng)絡(luò)、馬爾可夫模型和貝葉斯網(wǎng)絡(luò)等的分類(lèi)預(yù)測(cè)方法[8-9]。
總結(jié)前人研究成果不難發(fā)現(xiàn),單純采用傳統(tǒng)的蛋白質(zhì)序列特征提取算法如AAC等,進(jìn)行特征提取并送入分類(lèi)器進(jìn)行定位預(yù)測(cè)的準(zhǔn)確率偏低。為了改善這一問(wèn)題,作者引入詞袋模型 (Bag of Words Model,簡(jiǎn)稱(chēng)BOW模型),BOW模型源自文檔處理領(lǐng)域,也被廣泛應(yīng)用于圖像分類(lèi)方法中。不考慮語(yǔ)法和詞序,收集所有文檔中出現(xiàn)過(guò)的單詞,形成一本字典,然后統(tǒng)計(jì)獲得文檔中出現(xiàn)過(guò)的單詞及其出現(xiàn)的頻率[10],將文檔表示成高維的向量。作者使用詞袋模型完成序列信息的提取,實(shí)驗(yàn)證明結(jié)合使用BOW模型與傳統(tǒng)序列特征提取算法AAC和PseAAC完成蛋白質(zhì)序列特征的提取,并使用支持向量機(jī)分類(lèi)方法進(jìn)行定位預(yù)測(cè),能有效提高識(shí)別精度。
1.1 數(shù)據(jù)集
采用兩個(gè)凋亡蛋白數(shù)據(jù)集,第一個(gè)數(shù)據(jù)集由Zhou和Doctor[11]構(gòu)建,該數(shù)據(jù)集包含98條凋亡蛋白質(zhì)序列,分為四個(gè)亞細(xì)胞定位類(lèi)別,分別是43個(gè)細(xì)胞質(zhì)蛋白、30個(gè)膜蛋白、13個(gè)線(xiàn)粒體蛋白和12個(gè)其它類(lèi)蛋白;第二個(gè)數(shù)據(jù)集是由Chen和Li[12]構(gòu)建,該數(shù)據(jù)集包含317條蛋白質(zhì)序列,總共有6個(gè)亞細(xì)胞定位類(lèi)別,分別是112個(gè)細(xì)胞質(zhì)蛋白、55個(gè)膜蛋白、34個(gè)線(xiàn)粒體蛋白、17個(gè)分泌蛋白、52個(gè)細(xì)胞核蛋白和47個(gè)內(nèi)質(zhì)網(wǎng)蛋白。這兩個(gè)數(shù)據(jù)集的蛋白質(zhì)序列均從SWISS-PROT數(shù)據(jù)庫(kù)獲得。
1.2 蛋白質(zhì)序列的詞袋特征
BOW模型描述文檔的方法是用D表示一個(gè)存在的文檔集合,由M個(gè)文檔組成,提取M個(gè)文檔中出現(xiàn)過(guò)的單詞,假設(shè)不同的單詞個(gè)數(shù)為N,由這N個(gè)單詞構(gòu)成字典,則每一個(gè)文檔都可以被表示成一個(gè)N維的向量[13]。同理,一個(gè)蛋白數(shù)據(jù)集包含若干條蛋白質(zhì)序列,連續(xù)選取每一條蛋白質(zhì)序列的若干個(gè)片段,稱(chēng)這樣的片段為序列單詞,分別采用傳統(tǒng)的序列特征提取算法AAC和PseAAC統(tǒng)計(jì)序列單詞的氨基酸組分信息和位置信息,用向量表示,稱(chēng)這樣的向量為序列單詞特征;然后采用K-means聚類(lèi)算法對(duì)所有的序列單詞特征進(jìn)行聚類(lèi)分析,聚類(lèi)分析之后所得到的所有聚類(lèi)中心的集合,稱(chēng)為字典,字典的大小由聚類(lèi)中心的個(gè)數(shù)k決定,所有的序列單詞特征將映射到字典中的各個(gè)聚類(lèi)中心;逐一統(tǒng)計(jì)每一條蛋白質(zhì)序列屬于各個(gè)聚類(lèi)中心的序列單詞個(gè)數(shù),從而繪制出每一條蛋白質(zhì)序列的序列單詞直方圖,計(jì)算各個(gè)聚類(lèi)中心上序列單詞個(gè)數(shù)占該條蛋白質(zhì)序列序列單詞總數(shù)的比例即可得到蛋白質(zhì)序列的詞袋特征,則每一條蛋白質(zhì)序列都可以用一個(gè)k維向量來(lái)表示。此方法主要分為5個(gè)步驟:
1)分割數(shù)據(jù)集中所有的蛋白質(zhì)序列產(chǎn)生若干個(gè)序列單詞;
2)提取序列單詞的序列單詞特征;
3)對(duì)序列單詞特征進(jìn)行聚類(lèi)分析,獲得字典,字典大小為聚類(lèi)中心個(gè)數(shù)k;
4)經(jīng)聚類(lèi)分析后序列單詞特征被映射到字典中的各個(gè)聚類(lèi)中心,統(tǒng)計(jì)每一條蛋白質(zhì)序列屬于各個(gè)聚類(lèi)中心的序列單詞個(gè)數(shù),獲得蛋白質(zhì)序列的序列單詞直方圖;
5)對(duì)每一條蛋白質(zhì)序列計(jì)算各個(gè)聚類(lèi)中心上序列單詞個(gè)數(shù)占該條蛋白質(zhì)序列序列單詞總數(shù)的比例,從而獲得蛋白質(zhì)序列的詞袋特征,每一條蛋白質(zhì)序列被表示成一個(gè)k維的向量。
詞袋特征提取過(guò)程見(jiàn)圖1。
1.2.1 序列單詞特征提取 提取特征前對(duì)蛋白質(zhì)序列進(jìn)行分割處理,分割蛋白質(zhì)序列可采用均勻分割和滑動(dòng)窗口分割。均勻分割法是把每條蛋白質(zhì)序列均勻分割為多個(gè)序列單詞,得到的大量序列單詞的集合構(gòu)成構(gòu)建字典的基礎(chǔ)。滑動(dòng)窗口方法則每間隔一定數(shù)量截取窗口內(nèi)的蛋白質(zhì)序列片段作為一個(gè)序列單詞,設(shè)定不同的間隔字符個(gè)數(shù)和窗口大小可以得到不同長(zhǎng)度的序列單詞。
圖1 詞袋特征提取過(guò)程Fig.1 Bag of words feature extraction process
主要采用滑動(dòng)窗口分割法,從序列的N端到C端每次滑動(dòng)間隔固定為1,窗口大小決定序列單詞的長(zhǎng)度,選取方法如下:
其中L1,L2,…,Ln表示數(shù)據(jù)集中所有蛋白質(zhì)序列的長(zhǎng)度,L為數(shù)據(jù)集中最短蛋白質(zhì)序列的長(zhǎng)度,d為滑動(dòng)窗口大小,即序列單詞長(zhǎng)度在與L之間選取。
分割后統(tǒng)計(jì)序列單詞的組分信息和位置信息,運(yùn)用BOW模型結(jié)合已有的AAC和PseAAC算法,采用兩種統(tǒng)計(jì)方法,分別稱(chēng)為BOW_AAC和BOW_PseAAC。
設(shè)序列單詞P為:
其中R1R2R3R4R5表示序列單詞P的第一到第五個(gè)氨基酸殘基,以此類(lèi)推,RL表示序列單詞P的最后一個(gè)氨基酸殘基。
1)BOW_AAC序列單詞特征提?。篜的氨基酸組分信息定義如公式(3)[2]所示:
f1f2…f20的計(jì)算用公式(4)求解:
其中,fu(u=1,2,3,…,20)表示20種氨基酸在序列單詞中出現(xiàn)的頻率,L表示一個(gè)序列單詞的長(zhǎng)度,N表示一個(gè)序列單詞包含的所有氨基酸殘基的總數(shù)目,A(u)表示序號(hào)u所對(duì)應(yīng)的氨基酸殘基。經(jīng)過(guò)統(tǒng)計(jì)計(jì)算,所有的序列單詞都可以用一個(gè)20維的向量表示,從而獲得所有蛋白質(zhì)序列的序列單詞特征。
2)BOW_PseAAC序列單詞特征提取:假設(shè)序列單詞有L個(gè)氨基酸殘基,表示同公式(2),任意一個(gè)氨基酸殘基在同一個(gè)序列單詞中與其他氨基酸殘基存在不同程度的相關(guān)作用,用序列相關(guān)因子定義氨基酸殘基之間的相關(guān)性[14],定義如公式(5)[15]所示:
其中,θ1表示第一級(jí)相關(guān)因子,反映序列單詞中相鄰兩個(gè)氨基酸殘基之間的相關(guān)性;θ2表示第二級(jí)相關(guān)因子,反映序列單詞中每間隔一個(gè)氨基酸殘基的兩個(gè)氨基酸殘基之間的相關(guān)性;θ3表示第三級(jí)相關(guān)因子,反映序列單詞中每間隔兩個(gè)殘基的兩個(gè)氨基酸殘基之間的相關(guān)性;以此類(lèi)推。Ci,j是根據(jù)氨
基酸殘基的疏水性、親水性和側(cè)鏈分子量構(gòu)建的相關(guān)函數(shù),定義如公式(6)[15]所示:
其中,H1(Rj)表示Rj的疏水性值,H1(Ri)表示Ri的疏水性值;H2(Rj)表示Rj的親水性值,H2(Ri)表示Ri的親水性值;M(Rj)表示Rj的側(cè)鏈原子量,M(Ri)表示Ri的側(cè)鏈原子量。然后序列單詞特征可表示為:
其中
λ表示選取的相關(guān)因子類(lèi)型數(shù)目,fi表示序列單詞中第i種氨基酸出現(xiàn)的頻率,w表示序列順序效應(yīng)的權(quán)重因子,θj表示序列單詞中第j級(jí)序列相關(guān)因子。
1.2.2 構(gòu)建字典 得到序列單詞特征之后,下一步即是對(duì)這些特征值進(jìn)行處理,用K-means聚類(lèi)算法構(gòu)建字典,聚類(lèi)中心的個(gè)數(shù)即為字典的大小。核心思想是按照類(lèi)內(nèi)方差和最小的原則將n個(gè)序列單詞特征值分為指定的k類(lèi),k的選取方法為:
即聚類(lèi)中心個(gè)數(shù)從20開(kāi)始逐一遞增選取,結(jié)合序列單詞長(zhǎng)度d的選取,可以找到一組(d,k)使獲得的詞袋特征具有最高的識(shí)別精度。而類(lèi)內(nèi)方差和最小的定義如公式(10)[16]所示:
其中,Si(i=1,2,…,k)表示聚類(lèi)中心位置是μi的第i個(gè)聚類(lèi)類(lèi)別,xj為屬于聚類(lèi)類(lèi)別Si的特征值。利用K-means聚類(lèi)算法構(gòu)建字典的過(guò)程描述如下:
輸入:DS:n個(gè)序列單詞特征值組成的數(shù)據(jù)集合,k:聚類(lèi)中心的個(gè)數(shù)。
輸出:k個(gè)聚類(lèi)中心的集合即字典。
算法:
1)從DS中任意選取k個(gè)序列單詞特征值作為初始聚類(lèi)中心;
2)計(jì)算每個(gè)序列單詞特征值與各聚類(lèi)中心的距離,按照最近距離原則將n個(gè)特征值分配到以k個(gè)初始中心為代表的聚類(lèi)類(lèi)別中;
3)根據(jù)步驟2得到的結(jié)果對(duì)新產(chǎn)生的k個(gè)類(lèi)別進(jìn)行中心計(jì)算,得到新的聚類(lèi)中心;
4)重復(fù)步驟2~3,直至達(dá)到終止條件,如聚類(lèi)中心不再變化或者已達(dá)到最大迭代次數(shù)等。
1.3 支持向量機(jī)
支持向量機(jī)(SVM)擁有堅(jiān)實(shí)的理論基礎(chǔ),并且數(shù)學(xué)模型簡(jiǎn)單明了,在解決高維模式識(shí)別問(wèn)題中具有泛化能力強(qiáng)、分類(lèi)效率高等優(yōu)點(diǎn)[17]。借助林智仁等開(kāi)發(fā)設(shè)計(jì)的LIBSVM工具箱用一對(duì)一法構(gòu)造SVM多類(lèi)分類(lèi)器,為任意兩類(lèi)樣本設(shè)計(jì)一個(gè)SVM,當(dāng)存在一個(gè)未知樣本需要分類(lèi)時(shí),它的類(lèi)別取得票最多的那個(gè)類(lèi)別?;谶@樣的SVM分類(lèi)實(shí)驗(yàn),在提取出蛋白質(zhì)序列的詞袋特征之后,主要是選取最佳懲罰參數(shù)c和核函數(shù)參數(shù)g的問(wèn)題,作者通過(guò)交叉驗(yàn)證選擇最佳參數(shù),調(diào)用工具箱中的SVMcgForClass函數(shù)將c和g劃分網(wǎng)格進(jìn)行搜索,最佳參數(shù)是達(dá)到最高驗(yàn)證分類(lèi)準(zhǔn)確率時(shí)最小參數(shù)c對(duì)應(yīng)的那組c和g,如果存在多組g對(duì)應(yīng)最小參數(shù)c,則最佳參數(shù)是搜索到的第一組c和g。然后將訓(xùn)練樣本(Ci,yi)送入分類(lèi)器,向量Ci表示第i組訓(xùn)練樣本的詞袋特征值,yi表示該條蛋白質(zhì)序列所對(duì)應(yīng)的亞細(xì)胞位置,最后送入測(cè)試樣本并統(tǒng)計(jì)預(yù)測(cè)結(jié)果。
為了檢驗(yàn)方法的預(yù)測(cè)性能,采用Jackknife檢驗(yàn),每次僅從數(shù)據(jù)集中選取一條蛋白質(zhì)序列構(gòu)成測(cè)試集,訓(xùn)練集由剩余的蛋白質(zhì)序列構(gòu)成,測(cè)試次數(shù)等于數(shù)據(jù)集的大小,這種檢驗(yàn)方法具有最小的任意性,是一種客觀(guān)有效的交叉驗(yàn)證方法[18]。最后將本文方法BOW_AAC_SVM和BOW_PseAAC_SVM在98和317數(shù)據(jù)集上的預(yù)測(cè)結(jié)果列于表1-2。為了方便比較,將運(yùn)用傳統(tǒng)蛋白質(zhì)序列特征提取算法氨基酸組成(AAC)和偽氨基酸組成(PseAAC)進(jìn)行特征提取并送入SVM分類(lèi)器得到的預(yù)測(cè)成功率一并列出,如表中AAC_SVM和PseAAC_SVM兩行所示,同時(shí)在表 1的第一行列出了 G.P.ZHOU和K.DOCTOR[11]利用氨基酸組成提取特征值以及采用Jackknife進(jìn)行檢驗(yàn)的實(shí)驗(yàn)結(jié)果。
從表1可以看出,在98數(shù)據(jù)集上直接采用AAC、PseAAC特征提取算法的總體預(yù)測(cè)精度分別是80.2%和83.3%,用BOW模型結(jié)合AAC、PseAAC提取的特征值的總體識(shí)別精度達(dá)到了90.6%和91.7%,分別提高了10.4%和8.4%,對(duì)于每一個(gè)亞細(xì)胞類(lèi),也都有不同程度的提高,在傳統(tǒng)方法預(yù)測(cè)成功率較低的Mitochondrial和Other亞細(xì)胞類(lèi)上最高提升了23%~25%,尤其在最后一個(gè)亞細(xì)胞類(lèi)上將AAC_CCA方法的預(yù)測(cè)成功率由 25%提高到了83.3%。通過(guò)表2的比較發(fā)現(xiàn),運(yùn)用BOW模型的總體預(yù)測(cè)精度也比傳統(tǒng)方法高出6.7%和6.9%,在各個(gè)亞細(xì)胞類(lèi)上也都有不同程度的提高,在Nuclear亞細(xì)胞類(lèi)上分別提升了15.7%和11.8%,在Secreted上比傳統(tǒng)方法高出23.6%。
表1 98數(shù)據(jù)集結(jié)果比較Table 1 Comparison of the results of 98 data sets
表2 317數(shù)據(jù)集結(jié)果比較Table 2 Comparison of the results of 317 data sets
作者引入詞袋模型應(yīng)用于蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)中,主要技術(shù)包括:蛋白質(zhì)序列分割——滑動(dòng)窗口法,用來(lái)獲得大量序列單詞的集合,作為構(gòu)建字典的基礎(chǔ);序列單詞特征提取——BOW_AAC與BOW_PseAAC,運(yùn)用詞袋模型結(jié)合傳統(tǒng)的蛋白質(zhì)特征提取算法統(tǒng)計(jì)蛋白質(zhì)序列的氨基酸組分信息和位置信息;構(gòu)建字典——Kmeans算法,對(duì)所有的序列單詞特征進(jìn)行聚類(lèi)分析處理,再通過(guò)統(tǒng)計(jì)計(jì)算獲得蛋白質(zhì)序列的詞袋特征;亞細(xì)胞定位預(yù)測(cè)——SVM多類(lèi)分類(lèi)器,對(duì)數(shù)據(jù)集中蛋白的亞細(xì)胞位置進(jìn)行預(yù)測(cè)。預(yù)測(cè)準(zhǔn)確率較傳統(tǒng)的蛋白質(zhì)序列特征提取算法有所提升,最高達(dá)到了91.7%,尤其在傳統(tǒng)方法預(yù)測(cè)準(zhǔn)確率較低的亞細(xì)胞類(lèi)上識(shí)別精度明顯提高,如在98數(shù)據(jù)集other這一亞細(xì)胞分類(lèi)上,預(yù)測(cè)成功率提高了25%,在317數(shù)據(jù)集Secreted這一亞細(xì)胞分類(lèi)上,預(yù)測(cè)成功率也提高了20%以上,對(duì)準(zhǔn)確預(yù)測(cè)未知蛋白質(zhì)的亞細(xì)胞位置具有重要作用。此次在特征提取方面做了研究工作并取得了一些成果,接下來(lái)將在滑動(dòng)窗口大小和聚類(lèi)中心個(gè)數(shù)的選取方法上做一些改進(jìn),并嘗試在預(yù)測(cè)算法設(shè)計(jì)方面做一些工作,重點(diǎn)關(guān)注集成學(xué)習(xí)以及深度學(xué)習(xí)等。
[1]QIAO Shanping,YAN Baoqiang.The research review of protein subcellular localization prediction[J].Application Research of Computers,2014,31(2):321-327.(in Chinese)
[2]CHOU Kuochen.Some remarks on protein attribute prediction and pseudo amino acid composition[J].Journal of Theoretical Biology,2011,273(1):236-247.
[3]FAN Guoliang,LI Qianzhong.Predictingprotein submitochondrialocations by combining different descriptors into the general form of Chou’s pseudo amino acid composition[J].Amino Acids,2012,43(2):545-555.
[4]LIN Hao,CHEN Wei,YUAN Lufeng,et al.Using over-represented tetrapeptides to predict protein submitochondria locations[J]. Acta Biotheoretica,2013,61(2):259-268.
[5]YANG Huifang,CHENG Yongmei,ZHANG Shaowu,et al.Based on the pseudo amino acid composition feature extractionmethod to predict protein subcellular localization[J].Acta Biophysica Sinica,2008,24(3):232-238.(in Chinese)
[6]GAO Qingbin,YE Xiaofei,JIN Zhichao,et al.Improving discrimination of outer membrane proteins by fusing different forms of pseudo amino acid composition[J].Analytical Biochemistry,2009,398(1):52-59.
[7]CHEN Yingli,LI Qianzhong,YANG Keli,et al.Based on the discrete incremental support vector machine method of apoptosis protein subcellular location prediction[J].Acta Biophysica Sinica,2007,23(3):192-198.(in Chinese)
[8]ZOU Lingyun,WANG Zhengzhi,HUANG Jiaomin.Prediction of subcellular localization of eukaryotic proteins using position-specific profiles and neural network with weighted inputs[J].Journal of Genetics and Genomics,2007,34(12):1080-1087.
[9]ZHANG Shubo,LAI Jianhuang.Machine learning-based prediction of subcellular localization for protein[J].Computer Science,2009,36(4):29-33,49.(in Chinese)
[10]ZHAO Chunhui,WANG Ying,Masahide KANEKO.An optimized method for image classification based on bag of words model [J].Journal of Electronics&Information Technology,2012,34(9):2064-2070.(in Chinese)
[11]ZHOU Guoping,DOCTOR Kutbuddin.Subcellular location prediction of apoptosis proteins[J].Proteins,2002,50(1):44-48.
[12]CHEN Yingli,LI Qianzhong.Prediction of the subcellular location of apoptosis proteins[J].Journal of Theoretical Biology,2006,245(4):775-783.
[13]YANG Quan,PENG Jinye.Chinese sign language recognition research using SIFT-BoW and depth image information[J]. Computer Science,2014,41(2):302-307.(in Chinese)
[14]MA Junwei,GAO Xinzhong,ZHANG Jie.Study on the sequence encoding method of protein subcellular location prediction[J]. Computer Science,2012,39(11A):283-287,312.(in Chinese)
[15]CHOU Kuochen.Prediction of protein cellular attributes using pseudo-amino acid composition[J].Proteins,2001,43(3):246-255.
[16]LEI Xiaofeng,XIE Kunqing,LIN Fan.An efficient clustering algorithm based on local optimality of K-Means[J].Journal of Software,2008,19(7):1683-1692.(in Chinese)
[17]GU Yaxiang,DING Shifei.Advances of support vector machines[J].Computer Science,2011,38(2):14-17.(in Chinese)
[18]WANG Wei,ZHENG Xiaoqi,DOU Yongchao,et al.Prediction of protein subcellular location using optimal cleavage site[J]. Bioinformatics,2011,9(2):171-175,180.(in Chinese)
Application of Bag of Words Model in the Prediction of Protein Subcellular Location
ZHAO Nan1, ZHANG Liang2, XUE Wei*1, WANG Xiongfei1, REN Shougang1
(1.School of Information Science and Technology,Nanjing Agricultural University,Nanjing 210095,China;2. National Engineering Laboratory for Cereal Fermention Technology,Jiangnan University,Wuxi 214122,China)
Predecessors have done a lot of work in the feature extraction of protein and subcellular localization prediction.Previous studies showed that prediction accuracy obtained by traditional feature extraction algorithm is low.In order to improve accuracy,bag of words model combined with traditional protein features extraction algorithm is used to extract feature of protein sequence in this study.Firstly,K-means algorithm is used to construct feature dictionary.Then bag of words features of protein sequences are counted by dictionary.Finally extracted feature is inputted into SVM classifier to forecast the protein subcellular location.Results showed that predictionaccuracy of subcellular localization has been improved.
bag of words model,K-means,support vector machine,subcellular localization prediction
TP 391.4
A
1673—1689(2017)03—0296—06
2015-03-10
中央高校基本科研業(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金項(xiàng)目(KYZ201668);江蘇省自然科學(xué)基金項(xiàng)目(BK2012363,BK2011153);江蘇省博士后科研計(jì)劃項(xiàng)目(1302038B)。
*通信作者:薛 衛(wèi)(1979—),男,江蘇南通人,理學(xué)博士,副教授,碩士研究生導(dǎo)師,主要從事生物信息、模式識(shí)別方面的研究。
E-mail:xwsky@njau.edu.cn
趙南,張梁,薛衛(wèi),等.詞袋模型在蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)中的應(yīng)用[J].食品與生物技術(shù)學(xué)報(bào),2017,36(03):296-301.