紀(jì)騰其,孟 軍,趙思遠(yuǎn),胡鶴還
(大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧大連 116024)
(?通信作者電子郵箱mengjun@dlut.edu.cn)
長(zhǎng)鏈非編碼RNA(long non-coding RNA,lncRNA)作為非編碼RNA(non-coding RNA,ncRNA),能夠調(diào)節(jié)動(dòng)物[1]與植物[2]的生長(zhǎng)、發(fā)育、疾病等一系列生命活動(dòng)。然而,最近有研究表明一些lncRNA 中含有長(zhǎng)度不超過(guò)300 bp 的小開(kāi)放閱讀框(small Open Reading Frames,sORFs),具有編碼蛋白的能力[3],能翻譯一類長(zhǎng)度不超過(guò)100個(gè)氨基酸的短肽[4]。這類由lncRNA 上的sORFs 區(qū)域編碼的短肽(sORFs-encoded short peptides,SEPs)在生物的各種生命活動(dòng)中發(fā)揮重要作用[5-6]。
SEPs 的發(fā)現(xiàn)打破了人們以是否編碼區(qū)分mRNA 與ncRNA的標(biāo)準(zhǔn),顯著地?cái)U(kuò)大了蛋白質(zhì)組的范圍和多樣性,隨著越來(lái)越多的短肽及其功能的發(fā)現(xiàn),人們也開(kāi)始將視線集中到對(duì)短肽的分析識(shí)別上[7]。
基于機(jī)器學(xué)習(xí)的計(jì)算預(yù)測(cè)方法在各種領(lǐng)域中都有出彩的表現(xiàn),在生物信息領(lǐng)域中的lncRNA 識(shí)別和功能預(yù)測(cè)[8]、lncRNA-蛋白質(zhì)相互作用[9]和lncRNA-miRNA 相互作用[10]等多個(gè)研究方向都取得了不錯(cuò)的成效。許多研究工作利用機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測(cè)模型,通過(guò)將序列特征、結(jié)構(gòu)特征或者其他方式的編碼作為輸入數(shù)據(jù),構(gòu)建分類器模型。
目前,植物lncRNA 編碼短肽的識(shí)別與研究尚屬新興的研究領(lǐng)域,對(duì)于植物lncRNA 中的sORFs 以及對(duì)應(yīng)的SEPs 的結(jié)構(gòu)信息、理化特性的分析還不充分,而擬南芥作為經(jīng)典的模式植物,經(jīng)常被用于生物研究中[11],具有代表性,因此,以擬南芥的編碼序列(Coding Sequences,CDS)和非編碼序列(Non-Coding Sequences,NCDS)為切入點(diǎn),對(duì)sORFs 序列的特征進(jìn)行系統(tǒng)性分析,考慮到sORFs特征不鮮明、數(shù)據(jù)樣本不足的性質(zhì),提出一種自編碼器(AutoEncoder,AE)與深度森林(Deep Forest,DF)結(jié)合的方法,實(shí)現(xiàn)lncRNA編碼短肽的識(shí)別預(yù)測(cè)。
本文的主要工作如下:
1)使用多個(gè)生物信息學(xué)軟件獲取擬南芥中的sORFs,對(duì)結(jié)果取交集以提高結(jié)果可信度;
2)提取CDS 與NCDS 候選sORFs 序列在多種特征編碼方式下的特征表達(dá)結(jié)果,對(duì)特征進(jìn)行融合,并通過(guò)機(jī)器學(xué)習(xí)算法分析二者的差異;
3)結(jié)合AE非監(jiān)督表示學(xué)習(xí)思想,提出一種DF預(yù)測(cè)模型,實(shí)現(xiàn)sORFs編碼短肽的識(shí)別預(yù)測(cè)。
對(duì)植物lncRNA 編碼短肽的識(shí)別本質(zhì)上是識(shí)別植物lncRNA 中sORFs 是否具有編碼能力,目前已有一些生物信息學(xué)工具可以用于挖掘sORFs[12-13]。如ORF finder[12]通過(guò)執(zhí)行六個(gè)可讀框的翻譯,分析所有可能的ORFs 區(qū)域;sORF finder[13]基于六聚體組成偏差來(lái)實(shí)現(xiàn)對(duì)sORFs的識(shí)別。
目前對(duì)于SEPs 的研究大多通過(guò)生信工具獲取到候選sORFs 作為數(shù)據(jù)支撐,通過(guò)生物實(shí)驗(yàn)、計(jì)算方法等進(jìn)行分析與研究[5,14]。如Fesenko 等[5]通過(guò)質(zhì)譜數(shù)據(jù)注釋苔蘚lncRNA 中的候選sORFs,使用BLAST 工具搜索具有同源序列的保守sORFs,并通過(guò)生物實(shí)驗(yàn)得到高可信度的SEPs,驗(yàn)證生物學(xué)功能。Zhu 等[14]為避免繁雜的生物實(shí)驗(yàn),根據(jù)sORFs 序列差異性,使用邏輯回歸模型完成SEPs 的識(shí)別,該機(jī)器學(xué)習(xí)方法代價(jià)低耗時(shí)少,但由于數(shù)據(jù)及特征表達(dá)不全面,無(wú)法有效預(yù)測(cè)較長(zhǎng)的SEPs。
AE 是一種通過(guò)無(wú)監(jiān)督學(xué)習(xí)學(xué)到主要特征并依據(jù)主要特征重構(gòu)輸入數(shù)據(jù)的人工神經(jīng)網(wǎng)絡(luò),基于AE的表示學(xué)習(xí)能夠有效地獲取輸入數(shù)據(jù)的高效表示[15],在各個(gè)領(lǐng)域得到了廣泛應(yīng)用[16],也能夠很好地解決生物信息領(lǐng)域的問(wèn)題[17]。近年來(lái),深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)在自然語(yǔ)言處理、視覺(jué)識(shí)別和生物信息等領(lǐng)域取得巨大成功[18],但伴隨著訓(xùn)練數(shù)據(jù)量和超參數(shù)調(diào)優(yōu)技能的高要求,而DF 作為DNN 的有效替代方法[19],只需較少的超參數(shù),在解決生物信息問(wèn)題上取得了較好的成果[20]。
本文提出了一種基于AE 表示學(xué)習(xí)和DF 的預(yù)測(cè)模型,不僅避免了無(wú)法充分提取特征的弊端,也不受到當(dāng)前SEPs研究中有效數(shù)據(jù)量不足的影響,實(shí)現(xiàn)了對(duì)SEPs的有效識(shí)別預(yù)測(cè)。
本章將介紹數(shù)據(jù)集構(gòu)建和特征編碼方式,并對(duì)特征進(jìn)行系統(tǒng)性分析。
由于經(jīng)過(guò)生物實(shí)驗(yàn)驗(yàn)證的SEPs 數(shù)據(jù)稀少,無(wú)法滿足機(jī)器學(xué)習(xí)的需求,因此通常采取特定方式合理構(gòu)建數(shù)據(jù)集。從公共數(shù)據(jù)庫(kù)Phytozome[21](https://phytozome.jgi.doe.gov/pz/portal.html)下載擬南芥CDS 數(shù)據(jù)和NCDS 數(shù)據(jù),分別作為正集和負(fù)集的數(shù)據(jù)源。
對(duì)CDS使用sORF finder(http://hanadb01.bio.kyutech.ac.jp/sORFfinder/)和ORF finder(https://www.ncbi.nlm.nih.gov/orffinder/)獲取sORFs,并對(duì)兩種工具的結(jié)果取交集,之后通過(guò)CD-HIT[22]工具,去除相似度高于80%的序列[23],得到候選的正集sORFs 數(shù)據(jù)(圖1(a))。由于sORF finder 尋找的是有編碼能力的sORFs,因此對(duì)NCDS 只使用ORF finder 工具獲取其中的sORFs,得到的結(jié)果通過(guò)相同的去冗余處理(圖1(b))??紤]到目前發(fā)現(xiàn)能夠編碼的sORFs序列通常以堿基組合ATG 作為起始密碼子,因此從去冗余后的結(jié)果中篩選出起始密碼子為ATG 的sORFs 作為候選的負(fù)集sORF 數(shù)據(jù)。獲取候選sORF的流程如圖1所示。
圖1 候選sORFs的獲取流程Fig.1 Process of obtaining candidate sORFs
經(jīng)過(guò)以上處理得到CDS 和NCDS 的sORFs 數(shù)據(jù)分布差異較大,為了得到相似的正負(fù)集數(shù)據(jù),對(duì)兩部分?jǐn)?shù)據(jù)進(jìn)行了同分布取樣,最終得到sORFs正負(fù)集數(shù)據(jù)各4 800條。
考慮到SEPs獨(dú)有特征不鮮明,本文采用傳統(tǒng)的RNA特征提取方法提取了sORFs序列的相關(guān)特征。
序列的原始表達(dá)具有生物學(xué)意義,基于原始表達(dá)可以提取序列長(zhǎng)度L、(G+C)堿基含量GC_content與GC 堿基的比例GC_ratio三個(gè)特征,融合后特征記為Feature1:
其中,G_num和C_num分別為序列中堿基G和堿基C的數(shù)目。
密碼子是遺傳物質(zhì)編碼的信息規(guī)則,CDS 與NCDS 的密碼子保守性表現(xiàn)有所不同,因此提取k-mer特征作為密碼子頻率的近似表達(dá),k代表序列中相鄰的堿基數(shù),k個(gè)相鄰堿基有4k種組合。由于sORFs序列較短,因此取k=1,2,3。提取方法為沿sORFs 序列使用長(zhǎng)度為k、步長(zhǎng)為1 的滑動(dòng)窗口進(jìn)行滑動(dòng)匹配,為避免3-mer 與1-mer 計(jì)算時(shí)因使用出現(xiàn)次數(shù)而導(dǎo)致較大差異,為每個(gè)k-mer特征分配權(quán)重,則有:
其中:wk為權(quán)重;sk為滑動(dòng)次數(shù);mi為每個(gè)k-mer 出現(xiàn)次數(shù);fi為每個(gè)k-mer 經(jīng)過(guò)歸一化的頻率,最終得到84 個(gè)k-mer 特征,記為Feature2。
k-mer特征僅考慮連續(xù)堿基的性質(zhì),然而不連續(xù)堿基也可能存在差異,采取短序列模體(Short Sequence Motifs,SSM)特征作為補(bǔ)充,相隔1 個(gè)堿基的堿基組成記為N*M,相隔2 個(gè)堿基的堿基組成記為N**M,N 與M 可以為A、T、C、G 中的任意一個(gè)堿基,每組短序列模體都有42維特征表達(dá),提取N*M、N**N與N***M三組短序列模體特征:
其中:vk為滑動(dòng)次數(shù);ni為每個(gè)短序列模體出現(xiàn)次數(shù);SSMi即為每個(gè)短序列模體的出現(xiàn)頻率,最終得到48 個(gè)SSM 特征,記為Feature3。
信噪比的大小能夠表示CDS 和NCDS 中堿基使用的偏向性[24],通過(guò)堿基在密碼子三個(gè)相位的分布計(jì)算sORFs 三分之一處的功率譜計(jì)算信噪比R:
其中:xi、yi、zi為堿基i的一種在三個(gè)相位出現(xiàn)的頻數(shù)的一行三列的數(shù)組;P(L/3)表示L/3處的功率譜。
最終,將上述特征組成136 維的特征集,將其作為AE 的輸入向量Feature:
為驗(yàn)證特征編碼的有效性,對(duì)其中維數(shù)較多且占比較大的k-mer 和SSM 特征進(jìn)行了可視化分析,結(jié)果如圖2 所示,可視化分析方法分別選取了主成分分析(Principal Component Analysis,PCA)、核主成分分析(Kernel Principal Component Analysis,KPCA)、t-分布鄰域嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)和奇異值分解(Singular Value Decomposition,SVD)。從圖2 中可以看出,降維之后的k-mer特征與SSM 特征較為明顯地分布于不同的區(qū)域,說(shuō)明CDS 與NCDS中sORFs存在一定的差異,也驗(yàn)證了上述特征編碼方式的有效性。
圖2 不同特征編碼方式的特征可視化結(jié)果Fig.2 Feature visualization results for different feature encoding methods
本文模型由特征編碼、AE和DF三個(gè)階段組成。
AE是典型的無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法,使用大量函數(shù)和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)產(chǎn)生高維輸入的低維表示,由編碼器與解碼器兩部分組成。AE的流程如圖3所示。
圖3 AE流程Fig.3 Flowchart of AutoEncoder
AE 接收輸入的數(shù)據(jù)向量x后,經(jīng)過(guò)編碼器的多個(gè)隱藏層對(duì)其進(jìn)行線性變換,在激活函數(shù)的作用下得到編碼向量y,之后該向量經(jīng)過(guò)解碼器的多個(gè)隱藏層的變換后,得到重構(gòu)之后的輸出向量z,通過(guò)對(duì)比x與z,求出預(yù)測(cè)誤差并反向傳遞,反復(fù)迭代得到最優(yōu)權(quán)重:
其中:fθ是參數(shù)為θ={W,b}的編碼層線性函數(shù);gθ′是參數(shù)為θ′={W′,b′}的解碼層線性函數(shù);W是一個(gè)d′×d的權(quán)重矩陣,W′是W的轉(zhuǎn)置,b和b′則是偏倚向量;s是激活函數(shù)。
由于ReLU 函數(shù)具有便于稀疏化和能夠有效減小梯度似然值的優(yōu)勢(shì),因此在編碼與解碼過(guò)程中都選擇ReLU 函數(shù)作為激活函數(shù)。
編碼器設(shè)置了3 個(gè)隱藏層,每層的神經(jīng)元數(shù)量逐層減少;解碼器設(shè)置了3 個(gè)隱藏層,每層的神經(jīng)元數(shù)量逐層增加;選取AE 的中間隱藏層的輸出作為最終的表示學(xué)習(xí)結(jié)果。考慮到不同維數(shù)的表示學(xué)習(xí)結(jié)果對(duì)于分類器性能的影響也不同,因此,通過(guò)改變中間隱藏層神經(jīng)元數(shù)量來(lái)尋找較優(yōu)的表示學(xué)習(xí)結(jié)果,不同維數(shù)的表示學(xué)習(xí)結(jié)果訓(xùn)練得到的分類器以準(zhǔn)確率為評(píng)價(jià)指標(biāo),結(jié)果如圖4 所示。從圖中可以看出,在表示學(xué)習(xí)結(jié)果維數(shù)為75時(shí),性能相對(duì)更優(yōu)。
圖4 不同維數(shù)特征的分類準(zhǔn)確率Fig.4 Classification accuracy of features with different dimension
DF 是隨機(jī)森林(Random Forest,RF)[25]的擴(kuò)展算法,借鑒神經(jīng)網(wǎng)絡(luò)的特性,具有高效率、低數(shù)據(jù)量和低超參數(shù)要求等優(yōu)勢(shì),由多粒度掃描和級(jí)聯(lián)森林組成[19]。
在多粒度掃描階段,DF 采用不同大小的滑動(dòng)窗口對(duì)輸入數(shù)據(jù)進(jìn)行采樣,以此作為級(jí)聯(lián)森林的輸入。經(jīng)實(shí)驗(yàn)最終選取長(zhǎng)度分別為2 和4 的滑動(dòng)窗口進(jìn)行采樣,挖掘更加全面的信息。
在級(jí)聯(lián)森林階段,第一層級(jí)聯(lián)以多粒度掃描中的第一個(gè)滑動(dòng)窗口掃描得到的結(jié)果作為輸入,通過(guò)多個(gè)RF 進(jìn)行訓(xùn)練,產(chǎn)生增強(qiáng)特征,并將增強(qiáng)特征與經(jīng)過(guò)轉(zhuǎn)換的多粒度掃描中第二個(gè)滑動(dòng)窗口得到的特征向量拼接并傳遞給下一層級(jí)聯(lián),下一層級(jí)聯(lián)以拼接向量作為輸入,重復(fù)上述過(guò)程。在每一層級(jí)聯(lián)產(chǎn)生新的增強(qiáng)向量后,都在驗(yàn)證集上進(jìn)行驗(yàn)證,如果驗(yàn)證得到準(zhǔn)確率有所提升,則將增強(qiáng)向量繼續(xù)傳遞給下一層的級(jí)聯(lián),產(chǎn)生新的拼接向量;如果沒(méi)有提升,則終止訓(xùn)練。級(jí)聯(lián)森林階段每一層級(jí)聯(lián)由4個(gè)RF組成,每個(gè)RF包含1 000棵決策樹(shù)。
本文模型由特征編碼、AE 和DF 三部分組成。首先通過(guò)提取sORFs 相關(guān)特征完成編碼;緊接著將結(jié)果輸入到AE 中,經(jīng)過(guò)ReLU 函數(shù)激活,完成表示學(xué)習(xí)過(guò)程;最后將表示學(xué)習(xí)得到的特征向量輸入到DF 中,經(jīng)過(guò)自適應(yīng)的層數(shù)完成訓(xùn)練,獲得每一維增強(qiáng)特征對(duì)應(yīng)的分類概率,通過(guò)argmax 函數(shù)得到最終的分類結(jié)果,完成預(yù)測(cè)。模型的具體結(jié)構(gòu)如圖5所示。
圖5 模型整體結(jié)構(gòu)Fig.5 Overall structure of model
用擬南芥數(shù)據(jù)集對(duì)比不同方法的性能,驗(yàn)證模型的預(yù)測(cè)能力,并在大豆和玉米數(shù)據(jù)上進(jìn)行測(cè)試,驗(yàn)證模型的泛化能力。
實(shí)驗(yàn)以準(zhǔn)確率ACC(Accuracy)、精確率P(Precision)、召回率R(Recall)和F1 值F1(F1_score)作為評(píng)價(jià)指標(biāo)。四種評(píng)價(jià)指標(biāo)的計(jì)算公式如下:
其中TP、FP、TN、FN的含義如表1所示。
表1 分類結(jié)果含義Tab.1 Meaning of classification results
在擬南芥數(shù)據(jù)集上將提出方法與樸素貝葉斯(Naive Bayes,NB)[26]、決策樹(shù)(Decision Tree,DT)[27]、隨機(jī)森林(RF)、自編碼器(AE)與三種模型結(jié)合的組合模型以及DF 進(jìn)行比較。實(shí)驗(yàn)結(jié)果如表2 所示??梢钥闯?,本文模型在準(zhǔn)確率、精確率、召回率和F1 值四個(gè)指標(biāo)都優(yōu)于其他傳統(tǒng)機(jī)器學(xué)習(xí)模型,說(shuō)明本文模型在預(yù)測(cè)SEPs 上具有良好的分類性能。在準(zhǔn)確率方面分別比AE+NB,AE+DT,AE+RF 模型高15.31、5.72、4.58 個(gè)百分點(diǎn),說(shuō)明DF 模型的性能優(yōu)于其他模型。同時(shí),本文模型的準(zhǔn)確率也較使用單一DF作為分類模型提高了4.16 個(gè)百分點(diǎn),驗(yàn)證了AE 表示學(xué)習(xí)的有效性,能夠?qū)W習(xí)到的特征以更少的維數(shù)取得了更高的性能。此外,從最小顯著性差異法分析結(jié)果可以看出,本文模型顯著優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型且準(zhǔn)確率的標(biāo)準(zhǔn)差SD(Standard Deviation)僅為1.2%,表明模型的穩(wěn)定性較好。
表2 本文模型與傳統(tǒng)機(jī)器學(xué)習(xí)模型及其組合模型以及DF在擬南芥數(shù)據(jù)集上的結(jié)果比較Tab.2 Result comparison of the proposed model with traditional machine learning models,their combined models and DF on Arabidopsis thaliana dataset
除了與傳統(tǒng)機(jī)器學(xué)習(xí)模型進(jìn)行對(duì)比,還將本文模型在擬南芥數(shù)據(jù)集上與深度學(xué)習(xí)模型進(jìn)行對(duì)比,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[28]、遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[29]以及AE 與它們相結(jié)合的組合模型,實(shí)驗(yàn)結(jié)果如表3 所示。從表3 中可以看出,與深度學(xué)習(xí)模型相比,本文模型在準(zhǔn)確率方面分別比CNN、AE+CNN、RNN 和AE+RNN 模型高1.66、1.04、2.29 和2.08 個(gè)百分點(diǎn),說(shuō)明本文模型具有良好的分類性能;同時(shí),本文模型以DF作為訓(xùn)練模型,具有低數(shù)據(jù)量與低超參數(shù)調(diào)優(yōu)技能要求的優(yōu)勢(shì)。
表3 本文模型與深度學(xué)習(xí)模型及其組合模型在擬南芥數(shù)據(jù)集上的結(jié)果比較Tab.3 Result comparison of the proposed model with deep learning models and their combined models on Arabidopsis thaliana dataset
為了驗(yàn)證模型的泛化能力,在其他物種數(shù)據(jù)集上也對(duì)本文模型進(jìn)行了測(cè)試[10]。從Phytozome 數(shù)據(jù)庫(kù)下載大豆(Glycine max)和玉米(Zea mays)的CDS 與NCDS 數(shù)據(jù),并進(jìn)行與擬南芥數(shù)據(jù)集相同的預(yù)處理,并從處理完畢的數(shù)據(jù)集中隨機(jī)選取與擬南芥數(shù)據(jù)集具有相似分布的大豆和玉米數(shù)據(jù)作為獨(dú)立測(cè)試數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果如表4 所示,可以看出,本文模型在玉米和大豆lncRNA 編碼短肽預(yù)測(cè)方面各個(gè)指標(biāo)都較好,說(shuō)明該模型具有良好的泛化能力,能夠適用于其他物種。
表4 本文模型在大豆和玉米數(shù)據(jù)集上的分類結(jié)果Tab.4 Classification results of the proposed model on Glycine max and Zea mays datasets
通過(guò)多種特征編碼處理序列,結(jié)合特征降維方法,對(duì)擬南芥CDS 與NCDS 中的sORF 進(jìn)行可視化分析,證明特征編碼的有效性。綜合考慮sORFs 特征不鮮明且相關(guān)數(shù)據(jù)偏少的特點(diǎn),提出一種基于自編碼器(AE)和深度森林(DF)的SEPs 識(shí)別模型。實(shí)驗(yàn)結(jié)果表明,與多種模型相比,本文模型具有更優(yōu)的性能;此外,在大豆與玉米數(shù)據(jù)集上進(jìn)行獨(dú)立測(cè)試,也取得了良好的效果,驗(yàn)證了該模型良好的泛化能力,能夠適用于其他物種。未來(lái)將嘗試使用更多的方法進(jìn)行更深入的表示學(xué)習(xí)來(lái)進(jìn)一步改善對(duì)lncRNA編碼短肽的預(yù)測(cè)能力。