• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于卷積神經(jīng)網(wǎng)絡(luò)的大腸桿菌啟動子預(yù)測*

      2022-07-25 14:06:26彭寶成張曉煒樊國梁
      關(guān)鍵詞:位點(diǎn)分類矩陣

      彭寶成 張曉煒 劉 暘 樊國梁**

      (1)內(nèi)蒙古大學(xué)物理科學(xué)與技術(shù)學(xué)院,呼和浩特 010021;2)內(nèi)蒙古醫(yī)科大學(xué)第一附屬醫(yī)院風(fēng)濕免疫科,呼和浩特 010050)

      啟動子是基因序列中一段可以調(diào)控基因表達(dá)的核苷酸序列(序列中含有起始位點(diǎn)),控制著基因的表達(dá)與否,因此啟動子在基因的轉(zhuǎn)錄和表達(dá)中具有重要的地位。

      在大腸桿菌基因組中,啟動子是一段分布于起始位點(diǎn)上游60 bp及其下游20 bp、包含起始位點(diǎn)的長度為81 bp的DNA堿基序列。按照Sigma因子的類別,大腸桿菌共有7種啟動子,分別是Sigma19、Sigma24、 Sigma28、 Sigma32、 Sigma38、Sigma54、Sigma70。由于啟動子序列具有保守性,根據(jù)保守性片段區(qū)域的不同,啟動子又可以分為保守性區(qū)域在轉(zhuǎn)錄起始位點(diǎn)上游-10 至-35 位點(diǎn)附近的(以Sigma70 為代表)和在轉(zhuǎn)錄起始位點(diǎn)上游-12 至-24 位點(diǎn)附近的(以Sigma54 為代表)保守性啟動子[1-2]。

      大腸桿菌的分布極廣,并且作為腸桿菌類的成員經(jīng)常被作為細(xì)菌模式生物而被廣泛研究,因此人類對于大腸桿菌的研究非常深入(生物實(shí)驗(yàn)方面)。大腸桿菌所有系列的基因序列已經(jīng)在20 世紀(jì)被完全測量,但是基于生物實(shí)驗(yàn)方法尋找啟動子的方式十分耗時(shí)、昂貴。雖然它可以較為準(zhǔn)確地定位啟動子序列,但是在面對海量數(shù)據(jù)時(shí),效率低的弊端開始凸顯,因此計(jì)算生物學(xué)的研究應(yīng)運(yùn)而生。以往的研究者提出了各種各樣的模型并且取得了良好的預(yù)測效果[3-7]。2015年,丁輝等構(gòu)建的三聯(lián)體位置關(guān)聯(lián)矩陣的預(yù)測方法,預(yù)測Sigma54 的精度達(dá)到82.0%[8-9];2015年閆妍等[10]利用位點(diǎn)特異性打分矩陣(positive-specific scoring matrices,PSSM)方法預(yù)測Sigma 啟動子,模型對Sigma54 的預(yù)測準(zhǔn)確率為97.4%,對Sigma38 的預(yù)測準(zhǔn)確率為96.0%,對Sigma70 的預(yù)測準(zhǔn)確率為74.0%。此外還有基于柔性參數(shù)+二聯(lián)體位置關(guān)聯(lián)權(quán)重矩陣[11]、位置關(guān)聯(lián)打 分 特 征(position-correlation scoring feature,PCSF)+ 偽核苷酸特征(pseudo k-tuple nucleotide composition,PseKNC)[12]、啟動子元件的位置權(quán)重信息+k-聯(lián)體核苷酸頻率等方法,后來的趨勢表明,研究者趨向于組合多種特征來定義啟動子序列[13],以至于分類特征維數(shù)急劇增加,因此不得不在分類時(shí)對數(shù)據(jù)進(jìn)行降維處理。在算法方面,常用的機(jī)器學(xué)習(xí)算法有支持向量機(jī)(support vector machine,SⅤM)、隨機(jī)森林、K-近鄰、隱馬爾科夫、人工神經(jīng)網(wǎng)絡(luò)、前向傳播算法等或其他算法如線性判別分析、二次判別分析等[14-19]。近些年深度學(xué)習(xí)算法也逐漸被研究者所關(guān)注,并且已有研究者將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)應(yīng)用于大腸桿菌啟動子Sigma70和非啟動子的二分類預(yù)測中,對由A(1,0,0,0)、T(0,1,0,0)、G(0,0,1,0)和C(0,0,0,1)編碼的向量序列進(jìn)行預(yù)測得到了敏感性Sn(sensitivity)=0.90、特 異 性Sp(specificity) =0.96、 準(zhǔn) 確 率Acc(accuracy)=0.84 的結(jié)果,但準(zhǔn)確率仍需進(jìn)一步提高,編碼方式仍需優(yōu)化[20]。

      1 數(shù)據(jù)集的構(gòu)建和特征算法

      1.1 數(shù)據(jù)的選取

      論文中采用的Sigma38、Sigma54、Sigma70數(shù)據(jù)集可以從RegulonDB 10.8(http://regulondb.ccg.unam.mx/Downloadable)下載,為了便于后續(xù)數(shù)據(jù)處理,保證數(shù)據(jù)的一致性,對數(shù)據(jù)文件做如下處理:

      a.剔除Sigma Factor that recognize the promoter標(biāo)注為多種類型的行。

      b.刪除文件信息(以“#”開頭的行)和序列信息列(如“acrDp2”等信息),只留下序列所在列。

      c.刪除沒有序列內(nèi)容的行。

      經(jīng)過處理后得到了Sigma38 序列146 條、Sigma54 序 列96 條、Sigma70 序 列810 條,共 計(jì)1 052條,作為正集。啟動子序列的長度均為81 bp(-60 bp~20 bp,設(shè)基因轉(zhuǎn)錄起始位點(diǎn)為0)。

      分別選取了300 條編碼區(qū)序列和300 條基因間序列,長度均為81 bp,作為負(fù)集。基因間序列處于兩條基因之間的區(qū)域,選取中央?yún)^(qū)域可以最大限度的避免選入啟動子序列。

      1.2 特征描述

      大腸桿菌基因序列為字符序列,而CNN 算法(目前為止的大部分算法)能處理的只有數(shù)值序列,因此需要將字符序列轉(zhuǎn)換為數(shù)值序列,這一步也被稱之為特征提?。ɑ虿蓸樱?1-22]。在轉(zhuǎn)換過程中丟失的信息越少則對序列的描述也就越精確。首先,每一類序列的訓(xùn)練集分別構(gòu)建了位點(diǎn)特異性打分矩陣。其次,利用該P(yáng)SSM對該種類的訓(xùn)練集和測試集打分,從而將字母序列轉(zhuǎn)變?yōu)閿?shù)值序列。

      1.2.1 構(gòu)建位點(diǎn)特異性打分矩陣特征

      a.構(gòu)建頻數(shù)矩陣

      將序列坐標(biāo)化(從0 ~80共81個(gè)位點(diǎn)),統(tǒng)計(jì)每個(gè)坐標(biāo)上A、G、C、T 4種元素出現(xiàn)的頻數(shù),如果存在坐標(biāo)點(diǎn)上面某種核苷酸出現(xiàn)的次數(shù)為0,則需要引入偽計(jì)數(shù)(即將該位點(diǎn)上所有類型核苷酸的頻數(shù)加一整數(shù),本文中加1)。最終形成的頻數(shù)矩陣列名為序列坐標(biāo)(s1~s81),行名為4 種核苷酸(A、G、C、T)。

      b.生成頻率矩陣(偽計(jì)數(shù)頻率矩陣)P

      計(jì)算每種核苷酸在該位點(diǎn)上出現(xiàn)的頻率,即用該位點(diǎn)上每一種元素的頻數(shù)除以該位點(diǎn)上所有元素的頻數(shù)和,其中xi,j是在i位點(diǎn)上第j種元素的頻數(shù),Pi,j是在i位點(diǎn)上第j種元素的頻率:

      c.生成對數(shù)幾率比矩陣oddratio:

      其中P(x|M)為核苷酸出現(xiàn)的實(shí)際概率,P(x|R)為核苷酸出現(xiàn)的隨機(jī)概率(即0.25),因此將頻率矩陣P中的每個(gè)頻率值除以0.25 即可得到oddratio。隨后對oddratio求以2 為底的對數(shù),該矩陣即為位點(diǎn)特異性打分矩陣,矩陣的大小為(4×81)維。

      1.2.2 對特定序列打分

      從PSSM 矩陣中查出特定位點(diǎn)上核苷酸的分值,對給定序列賦值。實(shí)現(xiàn)方式是矩陣點(diǎn)乘,最終可以得到1×81或者4×1×81的矩陣(即一維矩陣或者四維矩陣)(圖1)。

      Fig.1 Sigma70 sequence matrix pixel matrix bitmap after scoring by PSSM

      這里的維度指的是通道數(shù):RGB圖片有3個(gè)通道(R、G、B)即通道數(shù)為3,每個(gè)維度上的每個(gè)位點(diǎn)的數(shù)值即為該通道在該位點(diǎn)上的通道顏色濃度,取值范圍為0~255,一張RGB圖片數(shù)值化后就是一個(gè)三維數(shù)值矩陣(圖2)。

      類似的,可以把A、G、C、T 作為4 個(gè)通道,將序列數(shù)值化的方法就變得容易理解:一條序列在A通道(A通道長度為81)上每個(gè)位點(diǎn)的值可以是0(該位點(diǎn)不為A)或者1(該位點(diǎn)為A),對其他3個(gè)通道做同樣處理,結(jié)果如圖3c 所示。計(jì)算證實(shí)訓(xùn)練上述方法得到的01 數(shù)值序列也可以獲得好的效果,但是01 離散數(shù)字序列攜帶的只有位置分布信息,信息量過小,因此過擬合的現(xiàn)象常常發(fā)生。

      把A 通道中的1 替換成PSSM 中的打分值。在位點(diǎn)s1上,“g”的打分值為-0.497 5,那么G通道中位點(diǎn)s1 上的1 就可以被替換為-0.497 5,如果是0則不需要替換(表1)。這種方法顯然可以讓數(shù)值化序列帶有更多的信息,對其他通道做同樣處理,就構(gòu)造出了4個(gè)維度的數(shù)值矩陣(圖3d)。

      Table 1 Sigma70 position-specific scoring matrix(PSSM)for a certain training set

      圖片上每個(gè)色塊的顏色是由3個(gè)通道顏色組合而成的,與此不同的是,啟動子序列的每個(gè)位點(diǎn)只有1個(gè)通道的值(AGCT中的一個(gè))(圖3b),因此每個(gè)通道中依舊有很多的0 存在(圖3d),所以可以將4個(gè)通道對應(yīng)位點(diǎn)的數(shù)值加和,得到一個(gè)沒有‘0’的長度為81 的向量(圖3e),將向量變換成9×9的矩陣?yán)L圖以后形成的點(diǎn)陣圖片(圖1)。依舊是由于序列和圖片的不同點(diǎn),序列的四維數(shù)值信息和一維數(shù)值信息沒有本質(zhì)上的區(qū)別,反映在模型表現(xiàn)上就是預(yù)測的準(zhǔn)確性沒有大的差別。

      Fig.2 Picture of RGB three-channel schematic diagram

      Fig.3 Overview of conversion method for certain Sigma70 sequence

      與圖片信息相同的是,啟動子的保守性區(qū)域可以類比為被人類所理解的圖像信息(如數(shù)字“1”反映在圖像上是幾個(gè)白灰色像素塊組合,圖4),無論是保守性序列還是數(shù)字“1”都具有不變性,這為研究者們尋找啟動子的獨(dú)有特征奠定了理論基礎(chǔ)[23]。

      Fig.4 Handwritten numbers “1” from http://deeplearning.net/data/mnist/

      1.3 分類算法

      CNN 是一個(gè)兼顧全連接和卷積取樣的前饋神經(jīng)網(wǎng)絡(luò)算法,它的提出來源于對生物的視覺皮層研究。它在處理多層網(wǎng)格結(jié)構(gòu)數(shù)據(jù)方面具有巨大優(yōu)勢,因此現(xiàn)在CNN 被廣泛應(yīng)用于圖像識別、語音識別和自然語言處理等領(lǐng)域。CNN 的實(shí)現(xiàn)分為兩個(gè)主要步驟:a.數(shù)據(jù)的預(yù)處理:將圖像等信息數(shù)字化和去噪等操作;b.特征提取和分類:這一部分由CNN 網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn),基礎(chǔ)的網(wǎng)絡(luò)結(jié)構(gòu)包括卷積層、池化層和全連接層3 部分,深度CNN 是基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)的多層疊加,這樣可以實(shí)現(xiàn)更多特征的提取從而提高識別精確度。

      CNN 的主要特點(diǎn)有局部區(qū)域連接、權(quán)值共享和降采樣。a.局部區(qū)域連接(圖5 左),即前后兩層網(wǎng)絡(luò)的所有神經(jīng)元并不是都互相連接的,目的是為了模擬視覺神經(jīng)的選擇性聚焦,這有利于減少訓(xùn)練參數(shù);b.權(quán)重共享,即一個(gè)卷積核在提取特征時(shí)的權(quán)重在整張圖片上都相同,這意味著一個(gè)卷積核只能提取一種特征;c.降采樣,主要有最大值、平均值(圖5右)和方均值保留等方式,通過池化層(pooling layer)實(shí)現(xiàn),目的是為了降低特征分辨率和減少過擬合風(fēng)險(xiǎn)。由于這3個(gè)特點(diǎn),CNN在抽取特征時(shí)更能夠聚焦圖片的重要信息(圖4中黑色的背景顯然就不是有效信息,因此CNN 就不會著重關(guān)注)。由于啟動子序列的類圖片特點(diǎn),將CNN作為特征提取和分類的算法是比較合適的選擇。

      Fig.5 Fully connected layer and average pooling layer

      2 檢驗(yàn)方法

      2.1 模型評價(jià)

      2.1.1 自洽驗(yàn)證

      分別從各類序列中抽取96 條序列組成均衡樣本;構(gòu)建均衡樣本中每種序列的位點(diǎn)特異性打分矩陣(1.2 節(jié)),并按照1.2 節(jié)方式分別使用各自的位點(diǎn)特異性打分矩陣將各自的所有序列(包括均衡樣本序列)轉(zhuǎn)變成數(shù)值序列。以均衡樣本序列作為訓(xùn)練集,采用全部序列測試模型性能。

      2.1.2 獨(dú)立檢驗(yàn)

      所有序列被分成兩部分(數(shù)量均等),一份用做訓(xùn)練集,另一部分用作測試集,用訓(xùn)練集的位點(diǎn)特異性打分矩陣將測試集和訓(xùn)練集轉(zhuǎn)變?yōu)閿?shù)值化序列,使用訓(xùn)練集訓(xùn)練模型,測試集測試模型性能。

      2.1.3 十交叉檢驗(yàn)

      該方法與前述獨(dú)立檢驗(yàn)不同的是,構(gòu)建位點(diǎn)特異性打分矩陣所使用的序列數(shù)目不同。十交叉檢驗(yàn)隨機(jī)將數(shù)據(jù)集分成10份,取其中的9份構(gòu)建位點(diǎn)特異性打分矩陣并被轉(zhuǎn)換成數(shù)值序列后用作訓(xùn)練集,剩余1 份被轉(zhuǎn)換成數(shù)值序列后用作測試模型性能。如此循環(huán),則共產(chǎn)生了10 份測試結(jié)果,對10 份結(jié)果取平均就得到了最終的驗(yàn)證結(jié)果。

      2.2 驗(yàn)證參數(shù)

      2.2.1 ROC曲線

      ROC 曲線即受試者操作特性曲線(receiver operating characteristic curve,常稱ROC 曲線),描述的是在不同的標(biāo)準(zhǔn)下(主要是閾值),模型的擊中率和誤報(bào)率之間的函數(shù)關(guān)系。ROC 曲線常用在二分類模型當(dāng)中,但是在多分類模型中也可以采取此參數(shù)(將被求ROC 參數(shù)的樣本設(shè)為正集,其余種類為負(fù)集)。

      曲線下面積(area under curve,AUC)一般在0.5~1 之間,AUC 越大即代表模型的性能越好。ROC 曲線的優(yōu)勢在于當(dāng)正負(fù)樣本數(shù)量對比發(fā)生變化時(shí)候曲線的形狀不會變化。

      2.2.2Sn、Sp、Acc

      Sn、Sp常用在二分類模型驗(yàn)證當(dāng)中,Sn表示正確預(yù)測正集樣本的概率(式3),Sp表示正確預(yù)測負(fù)集樣本的概率(式4)。

      Acc無論是在多分類還是二分類都比較常用的參數(shù),它表示樣本被正確預(yù)測的概率:

      每個(gè)種類序列的準(zhǔn)確率Acc公式為:

      在Acc的計(jì)算公式中,Tn 和Tp 分別表示被預(yù)測成功的負(fù)集樣本數(shù)和正集樣本數(shù),F(xiàn)p和Fn則表示被預(yù)測失敗的負(fù)集樣本數(shù)和正集樣本數(shù)。

      在Acc的計(jì)算公式中,T代表該類序列中被預(yù)測正確的數(shù)目,P代表該序列中被預(yù)測失敗的數(shù)目。

      3 結(jié)果評估

      本文采用PSSM矩陣作為識別序列的特征,用打分的方式將字符序列轉(zhuǎn)變成數(shù)值序列?;趯?shí)際需要,本文做兩組四分類:Sigma 序列和編碼(Coding) 序 列、Sigma 序 列 和 非 編 碼(Noncoding)序列。

      3.1 損失函數(shù)

      模型訓(xùn)練中使用的是交叉熵?fù)p失:

      p(x)代表真實(shí)概率分布,q(x)代表預(yù)測概率分布,交叉熵?fù)p失是對兩個(gè)概率分布差距的評估。交叉熵的函數(shù)圖像(以Sigmod 函數(shù)作為激活函數(shù))(圖6),可以看到交叉熵圖像具有單調(diào)性并且損失越大梯度越大,因此訓(xùn)練時(shí)權(quán)重可以很好地進(jìn)行更新。

      3.2 自洽檢驗(yàn)預(yù)測效果

      自洽檢驗(yàn)的目的是為了證明模型的合理性,由于樣本不均衡可能帶來收斂難度增大等問題,數(shù)量過多的樣本可以被人為地隨機(jī)丟棄一部分,使要進(jìn)行分類的各種序列數(shù)量保持一致(即達(dá)到樣本均衡),并且將分布均勻的樣本作為訓(xùn)練集,測試對全部樣本的預(yù)測能力,以此來檢驗(yàn)均衡樣本對總體樣本的預(yù)測能力(圖7)。

      Fig.6 Cross_Entropy curve

      Fig.7 Self-consistent verification training curve

      對樣本參數(shù)進(jìn)行評估,可以看到整體的預(yù)測性能比較好,各項(xiàng)參數(shù)都有比較好的表現(xiàn)(表2)。

      Table 2 Self-consistent verification overall evaluation Parameters

      圖8為兩種預(yù)測模型的ROC 曲線,每個(gè)種類模型的AUC 值均在0.96 以上,模型表現(xiàn)出了良好的分類能力。

      Fig.8 Self-consistent verification of two four-category ROC curves

      需要注意的是,均衡樣本的優(yōu)勢在于可以快速收斂并且可以有效地防止過擬合現(xiàn)象的發(fā)生,它的訓(xùn)練次數(shù)較少并且學(xué)習(xí)率較高,使用的分類器較少,可以很好地減少內(nèi)存損耗,預(yù)測精度也十分可觀。人為制造均衡樣本的缺點(diǎn)在于訓(xùn)練集可能不能完全包含樣本的所有特征從而影響預(yù)測準(zhǔn)確率,為此通過對量大的樣本進(jìn)行多次采樣,然后生成多個(gè)分類器,最后對所有分類器結(jié)果求平均可以解決此問題。

      3.3 獨(dú)立檢驗(yàn)

      從圖9中可以看到獨(dú)立檢驗(yàn)的訓(xùn)練取得了良好的效果,損失函數(shù)曲線以及準(zhǔn)確率曲線都比較平

      Fig.9 Independent inspection training curve滑,這說明訓(xùn)練的過程比較順利??梢钥吹綔?zhǔn)確率曲線最終上升到了1.0,損失函數(shù)下降到了一個(gè)較低的位置(0.000 6)。

      第999 次的準(zhǔn)確率為tensor(1);第999 次的損 失 函 數(shù) 為: tensor (0.000 6, grad_fn=<NegBackward>)。

      下面的表中展示了獨(dú)立檢驗(yàn)的驗(yàn)證結(jié)果(平均結(jié)果),With-coding 表示Sigma 和Coding 序列的驗(yàn)證 結(jié) 果(表3),With-Noncoding 表 示Sigma 和Noncoding序列的驗(yàn)證結(jié)果(表4)。

      Table 3 Independent inspection result(With-coding)

      Table 4 Independent inspection result(With-noncoding)

      表3、4 顯示Sigma38 序列相對于其他啟動子的準(zhǔn)確率明顯較低,這可能是由于過擬合導(dǎo)致的,在訓(xùn)練中Sigma70也較容易出現(xiàn)這種情況。

      獨(dú)立檢驗(yàn)繪出的ROC曲線(圖10、11),可以看到無論是哪種樣本組合,曲線的表現(xiàn)都十分讓人滿意。相對地來說,Sigma38的結(jié)果較差一些,這也是和上面的Acc結(jié)果有很好的對應(yīng)。

      Fig.10 Independent inspection ROC curve(With-coding)

      Fig.11 Independent inspection ROC curve(With-noncoding)

      獨(dú)立檢驗(yàn)的結(jié)果證明(表5),訓(xùn)練非均衡樣本依然是可行的途徑,這主要?dú)w功于CNN 分類算法的高精度和PSSM 能夠較好地代表序列的特征。但是非均衡樣本會帶來收斂過慢甚至出現(xiàn)無法收斂的災(zāi)難,因此常常需要對其進(jìn)行過采樣處理(采用較低的學(xué)習(xí)率和較多的訓(xùn)練次數(shù)、更多的分類器以提取更多特征,如本次卷積層使用了16×16甚至是20×20 的卷積核,而均衡樣本使用的卷積核為5×5),這樣就又增大了過擬合的風(fēng)險(xiǎn),因此訓(xùn)練成功的難度也相較于均衡樣本高,并且它對算力的損耗也增大了。

      Table 5 Independent inspection overall evaluation parameters

      3.4 十交叉檢驗(yàn)

      為了節(jié)省算力開銷,實(shí)驗(yàn)結(jié)論通過十交叉檢驗(yàn)法被驗(yàn)證(表6~8)。

      Table 6 Ten-fold inspection result(With-coding)

      Table 7 Ten-fold inspection result(With-noncoding)

      Table 8 Ten-fold inspection overall evaluation parameters

      繪出的ROC曲線如下:

      啟動子和Coding 區(qū)序列四分類的ROC 曲線(圖12)均在對角線上方,并且AUC值均比較接近1(Sigma38 的AUC 值為0.97,Sigma54 和Coding 序列的AUC 均為0.99,Sigma70 為0.96),這表明模型對于啟動子的分類效果比較理想。

      Fig.12 Ten-fold inspection(With_coding)ROC curve

      在啟動子和Non_coding 區(qū)序列四分類的ROC曲線(圖13)中,Sigma54序列和Non_coding區(qū)序列依舊達(dá)到了0.99,Sigma38 的AUC 值上升到了0.98。

      Fig.13 Ten-fold inspection(With_noncoding)ROC curve

      在十交叉檢驗(yàn)的結(jié)果中,可以看到模型對于四分類的整體預(yù)測準(zhǔn)確性都達(dá)到了0.97以上,并且對每一種序列的預(yù)測精確性也都達(dá)到了0.95以上。

      3.5 對比分析

      采用PSSM特征和采用二聯(lián)體+柔性參數(shù)[11]兩種方法得到的準(zhǔn)確性(表9)結(jié)果的對比數(shù)據(jù)顯示:PSSM特征的預(yù)測效果更為理想,并且采用本論文中方法取得的效果遠(yuǎn)遠(yuǎn)好于二聯(lián)體+柔性參數(shù)的方法,這說明PSSM特征對于序列特征的描述更為精確。

      單獨(dú)使用PSSM 特征分類和采用PSSM 特征+CNN 算法分類兩種方式對Sigma38、Sigma54 和Sigma70 的預(yù)測結(jié)果(表9)的對比數(shù)據(jù)顯示:CNN算法對3種啟動子的預(yù)測準(zhǔn)確性都優(yōu)于僅僅使用PSSM 特征分類的方式,而且CNN 算法對每種啟動子的預(yù)測準(zhǔn)確性都比較均衡,沒有出現(xiàn)對某個(gè)啟動子預(yù)測精度過小的現(xiàn)象.

      為了更進(jìn)一步探究算法對啟動子和非啟動子的分類效果,兩種方法(表10)對相同的數(shù)據(jù)集預(yù)測并且進(jìn)行了十交叉驗(yàn)證,對比結(jié)果顯示:本論文中的方法取得了更理想的結(jié)果。本論文方法在不同分類條件下得出的結(jié)果(表9,10)對比顯示:二分類的效果要好于多分類。

      本論文取得的成果與同行的最新研究成果對比顯示(表11):Grad-CAM 編碼方法(Feature by Grad-CAM)可以取得稍好的準(zhǔn)確率,但其特異性尤其是AUC 值表現(xiàn)較為遜色,說明其模型穩(wěn)定性可能存在問題,本論文則兼顧了準(zhǔn)確率和模型參數(shù)兩方面。獨(dú)熱編碼(one-hot encoding)方法取得的準(zhǔn)確率為0.901,AUC值為0.957 2,本論文的結(jié)果相對較好[24-25]。

      Table 9 Comparison of Acc(Ten-fold inspection)

      Table 10 Comparison of comprehensive parameters(Ten-fold inspection)

      Table 11 Comparison of comprehensive parameters(with the newest results)

      4 討 論

      CNN+PSSM 方法采用的特征簡單易用,并且多分類可以大幅提高預(yù)測效率。有研究者單獨(dú)采用PSSM打分進(jìn)行分類,這種方式取得的效果稍遜于本文方法,主要原因可能是PSSM 特征稍顯簡單。在沒有有效算法輔助的情況下,這種分類方式相對利用更復(fù)雜、覆蓋差異更全面的特征描述方法表現(xiàn)確實(shí)遜色。但是這并不意味著利用簡單的特征描述方法得不到好的結(jié)果。Shujaat等[24]和Zhang等[25]都利用較簡單的特征描述(01 序列為基礎(chǔ))得到了較好的預(yù)測結(jié)果(前者97%以上,后者80%左右)。其次是在分類算法上,Shujaat 等[24]采用了過于簡單的01序列造成了很大的泛化,本身01序列蘊(yùn)含信息就比較少,再次提取特征只會讓CNN模型的過擬合風(fēng)險(xiǎn)增大。Zhang 等[25]雖然取得了較好的準(zhǔn)確率,但是在AUC(僅在0.84 以上,且Sigma38的AUC為0.63)和Sp(0.78以下)等模型評估參數(shù)的表現(xiàn)上不如人意,其采用的序列轉(zhuǎn)換方法(由字符序列轉(zhuǎn)換為數(shù)字序列的方法)也是01編碼方式。

      樣本不均衡容易造成訓(xùn)練的泛化,目前還沒有好的調(diào)參辦法來完美解決這一問題,并且這一點(diǎn)也常被同行研究人員所忽視。目前大多數(shù)深度學(xué)習(xí)的研究者采用的方法是減少訓(xùn)練樣本中數(shù)量過多的種類的數(shù)量,人為地調(diào)整樣本分布,或者采用過采樣的方式對數(shù)量較少的種類重復(fù)取樣。有研究者提出過采樣可能是在以ROC/AUC作為評價(jià)指標(biāo)時(shí)最佳的處理方式[26-27]。為了減少模型擬合困難問題的發(fā)生,本文采用了人為調(diào)整樣本數(shù)量的方法,剔除了過多的樣本。

      CNN 和PSSM 特征結(jié)合是采取了兩條腿走路的方法:選取良好的特征描述方法可以最大限度的覆蓋不同種類啟動子之間的差異,為CNN 提取差異進(jìn)而進(jìn)行有效的分類奠定基礎(chǔ);CNN 自學(xué)習(xí)的優(yōu)良特性和對算法的優(yōu)化也是提升模型性能的關(guān)鍵。由于PSSM 特征對啟動子序列描述較為全面,因此本方法在序列轉(zhuǎn)換過程中丟失了更少的信息,同理如果可以選擇特征描述更為全面的轉(zhuǎn)換方法,模型的準(zhǔn)確率會有進(jìn)一步的提升。

      5 結(jié) 論

      本論文通過構(gòu)建樣本的位點(diǎn)特異性打分矩陣,并且使用樣本的位點(diǎn)特異性打分矩陣將待預(yù)測的字符序列轉(zhuǎn)化成數(shù)值序列。利用PSSM特征訓(xùn)練出來的CNN 模型對Sigma38、Sigma54 和Sigam70 3 種序列進(jìn)行預(yù)測,分別得到了0.978 9、0.995、0.964 4的預(yù)測精確度。

      在將序列數(shù)值化的過程中,PSSM特征能夠很好地表征每種序列的核苷酸分布信息,這使得每種序列之間的區(qū)分度比較明顯。由于PSSM特征的構(gòu)建方法簡單,因此該特征對于序列的特征表述不會過于冗雜,這有效地降低了CNN 在訓(xùn)練模型時(shí)發(fā)生過擬合的風(fēng)險(xiǎn)。本文提出了一種解釋序列特征的新思路,即利用類圖片特征構(gòu)建序列的點(diǎn)陣圖像,這為下一步研究序列特征提取提供了一個(gè)新的方向:例如,如果可以基于PSSM再創(chuàng)造一套多通道的標(biāo)準(zhǔn)(類似于RGB標(biāo)準(zhǔn)),讓每個(gè)位點(diǎn)的數(shù)值由多個(gè)通道共同決定,那么將序列展開為多維矩陣的識別效果可能更好[28]。

      猜你喜歡
      位點(diǎn)分類矩陣
      鎳基單晶高溫合金多組元置換的第一性原理研究
      上海金屬(2021年6期)2021-12-02 10:47:20
      CLOCK基因rs4580704多態(tài)性位點(diǎn)與2型糖尿病和睡眠質(zhì)量的相關(guān)性
      分類算一算
      分類討論求坐標(biāo)
      二項(xiàng)式通項(xiàng)公式在遺傳學(xué)計(jì)算中的運(yùn)用*
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      初等行變換與初等列變換并用求逆矩陣
      矩陣
      南都周刊(2015年4期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年3期)2015-09-10 07:22:44
      布拖县| 枣强县| 濮阳县| 于都县| 无为县| 茶陵县| 沙湾县| 临洮县| 清新县| 北碚区| 正镶白旗| 南安市| 广水市| 宜都市| 高要市| 龙山县| 渝中区| 连平县| 柳州市| 正镶白旗| 永德县| 镇沅| 包头市| 武安市| 刚察县| 托克逊县| 伽师县| 彰化市| 石家庄市| 汉川市| 霍州市| 乌兰县| 米脂县| 甘谷县| 云南省| 阿坝县| 贵港市| 威信县| 兴宁市| 祁连县| 库尔勒市|