朱樹平 劉毅慧
(齊魯工業(yè)大學(xué)(山東省科學(xué)院)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 山東 濟(jì)南 250353)
蛋白質(zhì)二級結(jié)構(gòu)預(yù)測是預(yù)測三維結(jié)構(gòu)的基礎(chǔ),而三維結(jié)構(gòu)的盤旋所形成的構(gòu)象將決定其發(fā)揮的生物學(xué)功能,因此確定蛋白質(zhì)二級結(jié)構(gòu)將對研究人體內(nèi)蛋白復(fù)合物以及醫(yī)學(xué)疾病的防治有很大的幫助。二級結(jié)構(gòu)的預(yù)測可以從輸入特征和預(yù)測方法方面改進(jìn),除了基于氨基酸本身特征之外,很多其他的特征也被引入二級結(jié)構(gòu)的預(yù)測中,如:基于非擔(dān)保殘余能量構(gòu)建自相關(guān)方程、功能域、復(fù)雜性度量因子和位置特異性差分矩陣(Position specific scoring matrix,PSSM)等[1]。主要方法有支持向量機(jī)(Support vector machine,SVM)[2-4]、深度學(xué)習(xí)[5-6]、隱馬爾可夫模型[7]、貝葉斯算法[8-9]、K最近鄰[10]和模糊聚類[11]等。
近年來,通過結(jié)合不同的特征和不同的方法,準(zhǔn)確率獲得不斷的提高,可達(dá)到80%,其中,深度學(xué)習(xí)方法表現(xiàn)出很好的預(yù)測性能。文獻(xiàn)[12]采用長短期記憶雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM-BRNN)的模型來捕獲蛋白質(zhì)氨基酸之間的非局部相互作用,預(yù)測蛋白質(zhì)二級結(jié)構(gòu)的Q3準(zhǔn)確率接近84%。文獻(xiàn)[13]將氨基酸的物理化學(xué)特性、HHBlits特征和PSI-Blast特征結(jié)合為一個(gè)58位的特征,作為一種名為深度起始-內(nèi)部-起始(Deep3I)網(wǎng)絡(luò)的輸入特征,建立了在線預(yù)測服務(wù)器,在預(yù)測蛋白質(zhì)二級結(jié)構(gòu)方面取得了較好的結(jié)果。在文獻(xiàn)[14]也提及今后對蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的方向應(yīng)當(dāng)從大數(shù)據(jù)、模板的使用和深度學(xué)習(xí)的方向進(jìn)行。文獻(xiàn)[15]采用基于數(shù)據(jù)劃分和半隨機(jī)子空間的方法預(yù)測蛋白質(zhì)二級結(jié)構(gòu),在25PDB和CASP類上都取得了超過80%的準(zhǔn)確率?;诖嘶A(chǔ),本文首先選取了大數(shù)據(jù)集Astral[16]和cullPDB[17]組成的15 666條蛋白質(zhì)作為訓(xùn)練集,按照蛋白質(zhì)長度將其劃分為4組;然后在每一組數(shù)據(jù)上,都使用深度卷積神經(jīng)網(wǎng)絡(luò)調(diào)整超參數(shù)進(jìn)行實(shí)驗(yàn);最后得到4個(gè)最佳的獨(dú)立預(yù)測模型塊,進(jìn)而又將這4個(gè)模型塊組合成一個(gè)整體網(wǎng)絡(luò)模型(稱為LIM-DCNN4)。模型建好后,使用CASP類數(shù)據(jù)和CB513數(shù)據(jù)進(jìn)行測試,在測試過程中,測試集中每一條蛋白質(zhì)會根據(jù)自己的長度,選擇合適的模型塊進(jìn)行預(yù)測,最終得到整個(gè)數(shù)據(jù)集的預(yù)測結(jié)果。為了使實(shí)驗(yàn)結(jié)論更加充分,又按照相同的原理,將測試集劃分為6段并進(jìn)行實(shí)驗(yàn),得到6分段的模型(稱為LIM-DCNN6)。實(shí)驗(yàn)結(jié)果表明,適當(dāng)增加劃分段數(shù),對于提升預(yù)測準(zhǔn)確率是有效的,因?yàn)樗茏尩鞍踪|(zhì)更好地選擇與其局部信息相似度高的模型進(jìn)行預(yù)測,并且本文設(shè)計(jì)的LIM-DCNN模型也得到了較優(yōu)的CB513準(zhǔn)確率。
獲取蛋白質(zhì)結(jié)構(gòu)常用的數(shù)據(jù)庫是蛋白質(zhì)數(shù)據(jù)庫(PDB),但在該數(shù)據(jù)庫中存在著許多具有相似序列和結(jié)構(gòu)的數(shù)據(jù),這樣就為蛋白質(zhì)結(jié)構(gòu)的劃分帶來很多困難。為了能夠解決該問題,產(chǎn)生了蛋白質(zhì)結(jié)構(gòu)分類(SCOPe)數(shù)據(jù)庫。它是根據(jù)蛋白質(zhì)結(jié)構(gòu)和進(jìn)化關(guān)系從層次結(jié)構(gòu)中的大多數(shù)已知結(jié)構(gòu)的蛋白質(zhì)手動(dòng)策劃的域的排序,并且它也是唯一一個(gè)手工標(biāo)識蛋白質(zhì)不同層次關(guān)系和定義域的數(shù)據(jù)庫,包含了超過65%的PDB中的結(jié)構(gòu)[18]。本文中使用的ASTRAL數(shù)據(jù)是從SCOP數(shù)據(jù)庫中選取出來的,實(shí)驗(yàn)時(shí)使用了6 892條蛋白質(zhì),除此之外還選擇了CullPDB數(shù)據(jù),兩者在實(shí)驗(yàn)中合稱為AstraCull,共15 666條蛋白質(zhì)。對于測試集,本文基于蛋白質(zhì)同源相似度低于25%,選擇了CASP9[19]、CASP10[20]、CASP11[21]、CASP12[22]和CB513[23]數(shù)據(jù),具體的實(shí)驗(yàn)數(shù)據(jù)如表1所示。
表1 測試和訓(xùn)練數(shù)據(jù)表
在實(shí)驗(yàn)中,對于蛋白質(zhì)特征選取了20位的PSSM矩陣,它是由PSI-BLAST多序列比對技術(shù)產(chǎn)生。通過PSI-Blast設(shè)置特定的收斂參數(shù)e-value為0.001,進(jìn)行3次迭代,使用BlOSUM62作為氨基酸替換矩陣得到的,它存儲了每個(gè)位置上所有氨基酸的保留分?jǐn)?shù),能夠很好地捕捉長短距離信息特性[24]。為了捕獲更多蛋白質(zhì)的局部信息,對于該特征進(jìn)一步處理,設(shè)滑動(dòng)窗口數(shù)為13,此時(shí)假設(shè)一條蛋白質(zhì)長度為L,則每條蛋白質(zhì)都會按照自身長度將特征設(shè)置為20×13×L,本文以該特征作為神經(jīng)網(wǎng)絡(luò)的輸入。
氨基酸序列的折疊構(gòu)像決定了蛋白質(zhì)的二級結(jié)構(gòu),而氨基酸序列的折疊構(gòu)像在一定程度上受序列長度的影響。因此本文主要是按照蛋白質(zhì)長度對數(shù)據(jù)進(jìn)行劃分,然后調(diào)整深度卷積神經(jīng)網(wǎng)絡(luò)超參數(shù),尋找參數(shù)最優(yōu)值建立模型的過程。該模型能夠讓蛋白質(zhì)選擇與其長度相近的模型進(jìn)行預(yù)測,從而提高了預(yù)測的準(zhǔn)確率。
1.2.1數(shù)據(jù)劃分
首先把上文中提及的所有數(shù)據(jù)集按照蛋白質(zhì)長度劃分為i組,每組的數(shù)據(jù)為Di。4分段按照長度介于0到150、150到250、250到350和350以上劃分,劃分后的蛋白質(zhì)數(shù)據(jù)分別可以表示為D1={B|0
表2 LIM-DCNN4蛋白質(zhì)條數(shù)數(shù)據(jù)表
表3 LIM-DCNN4氨基酸個(gè)數(shù)數(shù)據(jù)表
為使實(shí)驗(yàn)結(jié)果更加充分,又按照長度介于0到100、100到200、200到300、300到400、400到500和500以上劃分為6組后,同理,每組數(shù)據(jù)可以表示為:D1={B|0
表4 LIM-DCNN6蛋白質(zhì)條數(shù)數(shù)據(jù)表
表5 LIM-DCNN6氨基酸個(gè)數(shù)數(shù)據(jù)表
續(xù)表5
1.2.2深度卷積網(wǎng)絡(luò)建模
對于4分段的模型,使用表2中AstraCull的D1、D2、D3和D4數(shù)據(jù),建立LIM-DCNN4模型;對于6分段模型,使用表4中AstraCull的D1、D2、D3、D4、D5和D6數(shù)據(jù),建立LIM-DCNN6模型。下面以4分段為例進(jìn)行說明:若假設(shè)每一個(gè)數(shù)據(jù)集中,氨基酸的個(gè)數(shù)為ni,輸入特征矩陣為P(i),標(biāo)簽矩陣為T(i),則有:
(1)
(2)
若用model代表DCNN建模過程,則該過程可以表示為:
Mi=model(P(i),T(i))
(3)
以D1段為例,第一段數(shù)據(jù)的輸入P(1)具體值為:
第一段數(shù)據(jù)標(biāo)簽T(1)的具體值為:
T(1)=(1,…,1)(1,527 862)
第一段數(shù)據(jù)模型M1可以表示為:
M1=model(P(1),T(1))
其余三段可以根據(jù)類似的原理依次得到。該過程如圖1所示。
圖1 LIM-DCNN4建模過程圖
具體而言對于一個(gè)20×13的特征矩陣,通過實(shí)驗(yàn)得到,它在圖1中DCNN具體過程如圖2所示。
圖2 DCNN過程
(4)
式中:e、f為輸入特征矩陣的行和列;u、v為卷積核的行和列下標(biāo);b代表偏置;φ為激活函數(shù);K代表第t層的卷積核;k代表卷積核的大小。實(shí)驗(yàn)中使用的是線性整流激活函數(shù)(ReLU)。
在反向傳播的過程中,為保證獲得的訓(xùn)練模型要做的就是最小化損失函數(shù)ψ。尋求誤差的表達(dá)式用損失函數(shù)對卷積核和偏置求偏導(dǎo)數(shù),ψ對卷積核的偏導(dǎo)符合式(5),ψ對偏置的偏導(dǎo)符合式(6)。
(5)
(6)
(7)
得到誤差項(xiàng)以后,便可以計(jì)算權(quán)值W,權(quán)值的更新計(jì)算符合以下公式:
W←W+α×θ(e,f)×X(e,f)
(8)
式中:α代表學(xué)習(xí)率;“←”代表左邊數(shù)值隨右邊數(shù)值的變化進(jìn)行更新。
為了防止過擬合,在損失函數(shù)中加入了正則化因子λ,加入正則化因子后的損失函數(shù)ψ可以表示為:
(9)
在實(shí)驗(yàn)中選擇25PDB[25]數(shù)據(jù)作為調(diào)參數(shù)據(jù),基于超參數(shù)的取值范圍,依次給定合理的卷積核大小、卷積核個(gè)數(shù)、學(xué)習(xí)率和正則化大小等范圍,然后使用隨機(jī)梯度下降算法,尋找每個(gè)范圍內(nèi),上述超參數(shù)實(shí)驗(yàn)結(jié)果具體的最佳值,從而得到最優(yōu)的網(wǎng)絡(luò)模型。
上述4個(gè)模型建好以后,使用Casp9、Casp10、Casp11和CB513進(jìn)行測試。可以有兩種方法測試:一是不對測試集數(shù)據(jù)進(jìn)行劃分,讓蛋白質(zhì)逐條進(jìn)行測試;二是先對測試數(shù)據(jù)集的蛋白質(zhì)劃分再測試。
1) 測試一 測試數(shù)據(jù)中的蛋白質(zhì)依次進(jìn)入到LIM-DCNN4模型中,根據(jù)自身長度選擇模型進(jìn)行測試,此時(shí)假設(shè)一條長度為L的蛋白質(zhì),在進(jìn)入LIM-DCNN4模型時(shí)的特征矩陣為B,輸出為Y,則有:
(10)
式中:M1、M2、M3和M4分別代表LIM-DCNN4中每個(gè)模型的測試過程;B為20×13×L的矩陣;len(B)代表計(jì)算蛋白質(zhì)的長度;該過程如圖3所示。
圖3 LIM-DCNN4測試流程圖(1)
2) 測試二 先將測試數(shù)據(jù)進(jìn)行劃分,然后把每一段的數(shù)據(jù)分別放在對應(yīng)模型上進(jìn)行測試,最后把結(jié)果整合起來。CASP類和CB513數(shù)據(jù)分組后分別對應(yīng)表2中的D1、D2、D3和D4數(shù)據(jù),提取每一個(gè)數(shù)據(jù)中的特征矩陣P(1)、P(2)、P(3)和P(4),它們的含義與式(1)相同,都是特征20×13×ni的矩陣,此時(shí)ni代表測試集中每一段氨基酸的個(gè)數(shù),即表3數(shù)據(jù)。P(1)、P(2)、P(3)和P(4)分別會選擇M1、M2、M3和M4進(jìn)行預(yù)測,得到測試集中n條蛋白質(zhì)的輸出結(jié)果Y,該過程表示為:
(11)
Y=Y1∪Y2∪Y3∪Y4
(12)
式中:M1、M2、M3和M4分別代表LIM-DCNN4中每個(gè)模型的測試過程;Y1、Y2、Y3和Y4分別代表每一部分的測試結(jié)果;Y是將測試結(jié)果求并集得到的1×L的矩陣,Y∈{C,H,E}。該測試過程如圖4所示。
圖4 LIM-DCNN4測試流程圖(2)
最后將實(shí)驗(yàn)得到預(yù)測結(jié)果與數(shù)據(jù)集中的正確標(biāo)簽結(jié)果相比較得到了預(yù)測準(zhǔn)確率。這兩種測試方法的區(qū)別在于是否先對測試集進(jìn)行數(shù)據(jù)劃分,不進(jìn)行數(shù)據(jù)劃分的直接使用總模型LIM-DCNN4預(yù)測,進(jìn)行數(shù)據(jù)劃分的使用單一模型M1、M2、M3和M4分別預(yù)測,兩者的預(yù)測結(jié)果并無差別。對于6分段的數(shù)據(jù),按照相同的原理進(jìn)行測試即可。
實(shí)驗(yàn)使用判別標(biāo)準(zhǔn)是計(jì)算三態(tài)蛋白質(zhì)Q3和每一類的準(zhǔn)確率,即C類蛋白質(zhì)、E類蛋白質(zhì)和H類蛋白質(zhì)的準(zhǔn)確率QC、QE和QH。在進(jìn)行實(shí)驗(yàn)的過程中,分i段可以得到i個(gè)模型,首次得到的是4分段的4個(gè)模型:M1、M2、M3和M4。另外還有6分段的6個(gè)模型:M1、M2、M3、M4、M5和M6。其次得到的是每個(gè)模型中卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)和相關(guān)參數(shù),最后得到Casp9、Casp10、Casp11、Casp12和CB513訓(xùn)練在4個(gè)模型上的實(shí)驗(yàn)結(jié)果1和在6個(gè)模型上的實(shí)驗(yàn)結(jié)果2。
按照H,G,I→H,E,B→E,其他→C將一條氨基酸序列轉(zhuǎn)化為H(螺旋)、E(折疊)和C(卷曲)三種形態(tài),關(guān)于Q3、QC、QE、QH計(jì)算符合以下公式:
(13)
(14)
式中:numr()表示計(jì)算預(yù)測正確的個(gè)數(shù);num()代表單純計(jì)數(shù);len(SS)表示蛋白質(zhì)的長度;Z∈{C,H,E}代表三種取值情況;b代表氨基酸的下標(biāo),即num(SSb=B)計(jì)算SS符合某一類蛋白質(zhì)的氨基酸個(gè)數(shù)。
在實(shí)驗(yàn)過程中,使用25PDB數(shù)據(jù)作為調(diào)整參數(shù)的測試集,依次設(shè)置超參數(shù)的范圍,在保證25PDB實(shí)驗(yàn)結(jié)果Q3準(zhǔn)確率高的情況下,尋求超參數(shù)的最優(yōu)值。以M1模型為例,學(xué)習(xí)率變化對于準(zhǔn)確率的影響如圖5所示,在學(xué)習(xí)率取值為0.003 5時(shí)25PDB的Q3準(zhǔn)確率最高。其他模型的參數(shù)設(shè)置與上述原理相同。經(jīng)過多次實(shí)驗(yàn)調(diào)整LIM-DCNN4和LIM-DCNN6的超參數(shù),得到的具體超參數(shù)結(jié)果如表6和表7所示。這兩個(gè)模型的區(qū)別在于由于基于不同的蛋白質(zhì)長度劃分,LIM-DCNN6劃分得更為細(xì)致,因此每一段模型訓(xùn)練的時(shí)間會縮短,并且更能夠讓蛋白質(zhì)可以選擇與自己相似度更高的蛋白質(zhì)進(jìn)行預(yù)測,準(zhǔn)確率會更高。但是,蛋白分段長度的選擇也不是越細(xì)越好,要根據(jù)訓(xùn)練數(shù)據(jù)中蛋白質(zhì)長度合理評估確定。
圖5 學(xué)習(xí)率對M1準(zhǔn)確率影響圖像
表6 LIM-DCNN4網(wǎng)絡(luò)模型參數(shù)
續(xù)表6
表7 LIM-DCNN6網(wǎng)絡(luò)模型參數(shù)
在4分段模型中,如表6所示,M1中使用了3個(gè)卷積層,3個(gè)激活層,加上輸入層、全連接層、Softmax層和分類輸出層,共10層網(wǎng)絡(luò)結(jié)構(gòu)。其中,學(xué)習(xí)率α設(shè)置為0.003 5,正則化系數(shù)為0.005,最大迭代次數(shù)為10,每隔4次,將學(xué)習(xí)率變?yōu)棣痢?.1,每隔40個(gè)小批量數(shù)據(jù)進(jìn)行權(quán)值的更新調(diào)整。M2、M3和M4都使用2個(gè)卷積層和2個(gè)激活層,共有8層網(wǎng)絡(luò)結(jié)構(gòu)。對于M2,其學(xué)習(xí)率α設(shè)置為0.007,正則化系數(shù)為0.003,最大迭代次數(shù)為10,每隔8次,將學(xué)習(xí)率變?yōu)棣痢?.1,每隔80個(gè)小批量數(shù)據(jù)進(jìn)行權(quán)值的更新調(diào)整;對于M3,其學(xué)習(xí)率α設(shè)置為0.005 5,正則化系數(shù)為0.002 5,最大迭代次數(shù)為10,每隔3次,將學(xué)習(xí)率變?yōu)棣痢?.1,每隔30個(gè)小批量數(shù)據(jù)進(jìn)行權(quán)值的更新調(diào)整;對于M4,其學(xué)習(xí)率α設(shè)置為0.005 5,正則化系數(shù)為0.003 5,最大迭代次數(shù)為10,每隔3次,將學(xué)習(xí)率變?yōu)棣痢?.1,每隔30個(gè)小批量數(shù)據(jù)進(jìn)行權(quán)值的更新調(diào)整。
在6分段模型中,如表7所示,預(yù)測模型M1、M2、M3、M4、M5和M6都使用2個(gè)卷積層,2個(gè)激活層,加上輸入層、全連接層、Softmax層和分類輸出層,共8層網(wǎng)絡(luò)結(jié)構(gòu)。所有模型的最大迭代次數(shù)為10,每隔4次,將學(xué)習(xí)率變?yōu)棣痢?.1。對于M1學(xué)習(xí)率α設(shè)置為0.006 5,正則化系數(shù)為0.006,每隔50個(gè)小批量數(shù)據(jù)進(jìn)行權(quán)值的更新調(diào)整;對于M2學(xué)習(xí)率α設(shè)置為0.003 5,正則化系數(shù)為0.003 5,每隔40個(gè)小批量數(shù)據(jù)進(jìn)行權(quán)值的更新調(diào)整;對于M3學(xué)習(xí)率α設(shè)置為0.003,正則化系數(shù)為0.003,每隔30個(gè)小批量數(shù)據(jù)進(jìn)行權(quán)值的更新調(diào)整;對于M4學(xué)習(xí)率α設(shè)置為0.003 5,正則化系數(shù)為0.002 5,每隔40個(gè)小批量數(shù)據(jù)進(jìn)行權(quán)值的更新調(diào)整;對于M5學(xué)習(xí)率α設(shè)置為0.005,正則化系數(shù)為0.005,每隔60個(gè)小批量數(shù)據(jù)進(jìn)行權(quán)值的更新調(diào)整;對于M6學(xué)習(xí)率α設(shè)置為0.007,正則化系數(shù)為0.003,每隔50個(gè)小批量數(shù)據(jù)進(jìn)行權(quán)值的更新調(diào)整。
得到上述2個(gè)大的深度卷積網(wǎng)絡(luò)結(jié)構(gòu)模型后,分別使用Casp9、Casp10、Casp11、Casp12和CB513進(jìn)行測試。4分段網(wǎng)絡(luò)模型LIM-DCNN4得到的實(shí)驗(yàn)結(jié)果如表8所示,6分段網(wǎng)絡(luò)模型LIM-DCNN6得到的實(shí)驗(yàn)結(jié)果如表9所示。
表8 LIM-DCNN4實(shí)驗(yàn)結(jié)果(%)
表9 LIM-DCNN6實(shí)驗(yàn)結(jié)果(%)
可以明顯看到,任何數(shù)據(jù)集6分段的Q3準(zhǔn)確率都比4分段要高很多,說明了依據(jù)蛋白質(zhì)長度劃分?jǐn)?shù)據(jù)進(jìn)行預(yù)測的有效性。這是因?yàn)?,在合理范圍?nèi)劃分?jǐn)?shù)據(jù)段越細(xì)致,越能夠考慮到蛋白質(zhì)本身的序列特點(diǎn)和長短距離信息,從而能讓蛋白質(zhì)更好地選擇適合自身的預(yù)測模型,進(jìn)而能達(dá)到更好的預(yù)測效果。
本文設(shè)計(jì)的LIM-DCNN6方法與使用兩個(gè)階段神經(jīng)網(wǎng)絡(luò)的PSIPRED[26]方法、使用非冗余蛋白質(zhì)數(shù)據(jù)庫訓(xùn)練的兩層反饋神經(jīng)網(wǎng)絡(luò)的PHD Expert[27]方法、使用神經(jīng)網(wǎng)絡(luò)和線性判別分類器設(shè)計(jì)網(wǎng)絡(luò)模型的Prof[28]方法,使用雙軌隱馬爾可夫模型的SAM[29]方法、使用JNet算法結(jié)合隱馬爾可夫模型進(jìn)行7倍交叉驗(yàn)證的Jpred[30]方法、使用相關(guān)序列對預(yù)測的序列的局部成對比對的Predator[31]方法、使用內(nèi)部認(rèn)知機(jī)制(KDTICM)理論建立復(fù)合金字塔的CPM[32]方法、使用雙向樸素神經(jīng)網(wǎng)絡(luò)的SSpro(without template)[33]方法、使用迭代地將二級結(jié)構(gòu)預(yù)測與溶劑可及性和主鏈扭轉(zhuǎn)角的預(yù)測耦合起來以開發(fā)多步神經(jīng)網(wǎng)絡(luò)算法的SPINE-X[34]方法、使用條件隨機(jī)場的RaptorX-SS8[35]方法、使用條件隨機(jī)場和淺層神經(jīng)網(wǎng)絡(luò)組合為深度卷積場的DeepCNF-SS[36]、使用小波提取特征和支持向量機(jī)建模的6GTPCs[37]方法和使用卷積和長短期記憶神經(jīng)網(wǎng)絡(luò)的NetSurf-2.0[38]方法和使用長短期記憶雙向遞歸神經(jīng)網(wǎng)絡(luò)的SPIDER[39]方法,上述各類相比較的實(shí)驗(yàn)結(jié)果如表10所示。
表10 實(shí)驗(yàn)結(jié)果比較表(%)
可以看出,本文建立的LIM-DCNN6模型,預(yù)測CB513的Q3、QC、QE和QH準(zhǔn)確率,除了QC低于CPM的87.40%之外,其余都取得了最好的預(yù)測效果,說明了基于蛋白質(zhì)長度和深度卷積神經(jīng)網(wǎng)絡(luò)分類建模是有效的。
本文提出基于蛋白質(zhì)長度劃分?jǐn)?shù)據(jù)并使用深度卷積神經(jīng)網(wǎng)絡(luò)(LIM-DCNN)分類建模的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測方法,取得了較好的預(yù)測效果。通過實(shí)驗(yàn)得到了兩種不同的預(yù)測模型:LIM-DCNN4和LIM-DCNN6,兩個(gè)模型都是基于蛋白質(zhì)長度進(jìn)行劃分后建立的,這種分段的方法能夠很好地縮短模型訓(xùn)練的時(shí)間。LIM-DCNN6結(jié)果比LIM-DCNN4結(jié)果好的原因是在合適范圍內(nèi)增加分段數(shù),能夠使蛋白質(zhì)更好地選擇與其長度相近的蛋白質(zhì)進(jìn)預(yù)測。LIM-DCNN模型優(yōu)于其他經(jīng)典模型的原因在于它使用了大數(shù)據(jù)、模板和深度學(xué)習(xí)方法,這也就為下一步蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的研究進(jìn)一步指明了方向。當(dāng)然,后續(xù)的工作也可以通過設(shè)置不同的滑動(dòng)窗口,來獲得更具體的蛋白質(zhì)特征,或者結(jié)合其他深度學(xué)習(xí)的方法來實(shí)現(xiàn)預(yù)測,有望能夠進(jìn)一步提升蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的準(zhǔn)確率。