• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于位置信息的DNA 序列特征提?。?/h1>
      2023-02-19 12:24:48深圳大學陳煜元周小安
      數(shù)字技術與應用 2023年1期
      關鍵詞:訓練樣本堿基特征提取

      深圳大學 陳煜元 周小安

      DNA 序列的分類是生物信息學的主要研究任務之一,如何提取DNA 序列中的特征是影響分類精度的重要因素。為了更好地保留序列中堿基的信息,本文提出了一種基于堿基距離和相關性的特征提取方法。以H1N1、H5N1、COVID-19 等6 種病毒作為研究對象,將DNA序列轉化為特征向量,并用KNN 算法對冠狀和非冠狀病毒進行分類。實驗結果表明該方法能提高分類的準確率。

      據估計地球上約有1000 萬~1 億種生物,如此龐大的數(shù)據使得生物分類面臨著巨大挑戰(zhàn)[1],因此DNA 序列的分類成為了人們的研究熱點,也是當前生物信息學的主要研究任務之一。特征提取是DNA 序列分類研究中至關重要的一環(huán),旨在最大限度保留原序列數(shù)據的基礎上將序列轉化為數(shù)值特征,以挖掘其中所存在的生物規(guī)律。隨著計算機技術的發(fā)展和測序技術的不斷進步,堿基的組成和分布信息在DNA 序列特征提取中備受關注[2]。最基本的特征提取方法為K-mers[3],該方法隨著k 的增大特征維數(shù)呈現(xiàn)指數(shù)級的增長,而在訓練樣本不足的情況下高維數(shù)據的研究會帶來“過擬合”“維數(shù)災難”等問題[4],故k 的取值不能太大,而特征維數(shù)不足可能會丟失序列中的重要信息。此外,K-mers 方法忽略了堿基的距離和排列情況[5]。因此,本文擬提取出基于相同堿基間距離和不同堿基間相關性的特征用于病毒序列分類。該特征提取方法以DNA 序列中堿基的位置為基礎,分別記錄各堿基出現(xiàn)的位置,再通過合適的數(shù)學方法計算出平均距離和相關系數(shù)。實驗結果表明,新的特征提取方法在KNN 分類器上能取得較好的分類效果。

      1 KNN 算法

      1.1 KNN 簡介

      K 近鄰(K-Nearest Neighbor)算法簡稱KNN,是Cover 和Hart 在1968 年時首先提出的。它是一個在理論上較為成熟的算法,也是最常用、最簡單的機器學習算法之一。由于和其他分類算法相比沒有顯示的學習過程,所依據的“多數(shù)決定”的思想很容易理解,在多分類問題上表現(xiàn)的比其他分類算法要好,而且計算過程經過優(yōu)化后能夠大幅降低計算次數(shù),因此在分類領域有著廣泛的應用[6]。算法的原理是將待分類的樣本與訓練集的樣本逐一計算出距離,按距離從小到大進行排序,然后取出最近的K 個訓練樣本,這K 個樣本中數(shù)量較多那一類即為測試樣本的類別。

      1.2 距離的計算

      KNN 計算序列樣本之間距離的方法主要有曼哈頓距離、歐式距離和閔可夫斯基距離等,本文采用的是歐式距離法。令訓練樣本為X,特征的向量表示為(x1,x2,…,xn),測試樣本為Y,特征為(y1,y2,…,yn),則它們的歐式距離如式(1)所示:

      式中n 表示X 和Y 的特征維數(shù),若n=2 相當于計算平面上兩點之間的距離,n=3 相當于計算三維空間中兩點的距離。上式計算的是一個訓練樣本和一個測試樣本之間的距離,實際的分類問題中往往有m 個訓練樣本{X1,X2,…,Xm},需分別計算待分類樣本與每個訓練樣本的距離d(Xi,Y)(i=1,2,…,m),從小到大排序后再進行下一步工作。

      1.3 K 值的選取

      K 值的選取是KNN 算法中至關重要的一環(huán),取值太小容易導致過擬合,太大則會使得分類誤差增大。不僅如此,K 值有時能直接影響到分類結果。如圖1 所示,假設一個二分類問題,藍色正方形代表類別A,綠色三角形代表類別B,紅色圓形為待分類樣本X。若取K=3,即把距離最近的3 個樣本作為依據,此時類別B 的個數(shù)為2,類別A 的個數(shù)為1,此時KNN 會將待分類樣本歸為類別B;而取K=5 時顯然類別A 的個數(shù)比類別B 的多,則X 會被歸為A 類。

      圖1 K 近鄰算法Fig.1 K-nearest neighbors

      為了降低上述情況帶來的影響,可以采用距離加權的方式,給每個已知類別的樣本賦予權重,其值和訓練樣本與測試樣本之間距離成反比,這樣就使得較相似的樣本點在分類上具有更高的權重。本文將通過經驗法選取合適的K值,即對不同的K 值進行重復實驗,得到一個使分類準確率最高的結果。

      2 序列特征的提取

      2.1 基于堿基頻率的特征提取

      這是一種比較典型的特征提取方法,即k-mers法,以各堿基或堿基組合在DNA 序列中的頻率作為特征。由于堿基的種類有4種,故對于k(k=1,2,3,…)個堿基的組合,共有4k種組合方式。

      單堿基有A、T、G、C 4種,在不同DNA 序列甚至同一序列的不同片段中,每種堿基出現(xiàn)的頻率也是不相同的。設一條含有m 個堿基的序列,其中堿基n 的個數(shù)為c,則堿基n 的頻率可記為Pn=c/m。把4 種堿基的頻率用向量表示如式(2)所示:

      其中Pi(i∈{A,T,G,C})表示堿基i 在序列中出現(xiàn)的頻率。

      雙堿基有AA、AT、AG、AC、TA、TT、TG、TC、GA、GT、GG、GC、CA、CT、CG、CC 共42種,即16種組合方式。實驗采用滑動窗口算法對各雙堿基的個數(shù)進行計算,這樣可以降低堿基缺失對實驗結果的影響。一條含有m 個堿基的序列,用滑動窗口法得到的雙堿基共有m-1個,故雙堿基n 的頻率可記為Pn=c/(m-1),c為雙堿基n 出現(xiàn)的次數(shù)??蓪㈦p堿基在序列中的頻率表示為如下16 維向量:

      其中Pij(i,j∈{A,T,G,C})表示堿基ij 在序列中出現(xiàn)的頻率。

      基于三堿基的表示方法共有64 種組合,同樣用滑動窗口法計算出各三堿基的頻率,將其用如下64 維向量表示:

      其中Pijk(i,j,k∈{A,T,G,C})表示堿基ijk 在序列中出現(xiàn)的頻率。

      基于四堿基組合的表示方法共有44即256種,五堿基的共有1024種,隨著n 的增大組合方式呈指數(shù)型增長。在實際的機器學習算法中,太多的特征會使得計算的時間成本增加,且可能導致過擬合。此外,多個堿基的組合在序列中出現(xiàn)頻率較低,故不考慮3 個堿基以上的頻率作為特征輸入。

      上述基于堿基頻率的特征提取方法雖然能取得較好的分類效果,但是并不能表達出堿基的位置信息。本文提出一種新的DNA 序列特征提取方法,與k-mers 方法不同的是,新方法在考慮了堿基頻率的基礎上還包含了序列中堿基的距離和相關性信息。

      2.2 基于堿基位置信息的特征提取

      2.2.1 基于堿基距離的特征提取

      僅用堿基的頻率還不足以描述一條DNA 序列,因為兩條完全不同的序列可能會出現(xiàn)相同的堿基頻率,如以下兩條長度為20 個堿基的序列:

      序列a:ATCGC GCAGA GATAT CTATA

      序列b:GCACA TCAGA TCAGA TATGT

      序列a 和序列b 的A、T、G、C 含量完全相同,雙堿基含量和三堿基含量如AT、AG、TC、GCA、TAT等也有相同或相似之處,但這卻是截然不同的兩條序列。因此,為了使得分類更加準確,可用一種新的基于堿基距離的特征表示方法,即堿基(或堿基組合)之間的平均距離來描述一條序列。設有一條長度為m 的DNA 序列S=s1,s2,...sm,用Cn表示堿基n(n∈{A,T,G,C})的個數(shù),Lni來表示堿基n 在序列中第i 次(i=1,2,…,Cn)出現(xiàn)的位置,則相鄰堿基n 之間的距離Dnj=Lnj+1-Lnj(j=1,2,…,Cn-1),序列中堿基n 的平均距離為:

      以序列a為例,堿基A的個數(shù)CA=7,位置分別為LA1=1,LA2=8,LA3=10,LA4=12,LA5=14,LA6=18,LA7=20,相鄰兩個堿基A 之間的距離DA1=7,DA2=2,DA3=2,DA4=2,DA5=4,DA6=2,可算出其平均距離:

      同理堿基T 分別位于第2,13,15,17,19處,故堿基T 的平均距離DT=3.4;用該方法算出堿基G 和堿基C的平均距離分別為DG=2.33,DC=4.33。對于序列b 也用此法計算得:DA’=2.3,DT’=3.5,DG’=6,DC’=3.33,即:

      其中Da、Db分別表示序列a 和序列b 中堿基A、T、G、C 的平均距離向量??煽闯鲈趩螇A基含量相同的情況下,堿基之間的平均距離可能會有較大的差異。

      對雙堿基的平均距離和單堿基的計算方法類似,堿基組合的位置以第一個堿基為準。例如要計算序列a 中堿基組合AT 的平均距離,可找出4 個AT,其中堿基A 的位置分別為1、12、14、18,故AT 的平均距離DAT=5.67;同理序列b 中AT 的平均距離DAT’=4。堿基AT 在序列a 和序列b 中含量相同(都是4 個),平均距離卻有所差異,這正說明了我們不能只關注序列中堿基的含量而忽略了堿基的距離信息。

      2.2.2 基于堿基相關性的特征提取

      序列中不同堿基之間的相關關系也是區(qū)分不同種類生物的重要特征之一,將堿基n 的位置分布記作Sn(x)(x=1,2,…,m),其定義為:

      式中Lni表示堿基n 在DNA 序列中第i 次出現(xiàn)的位置,Cn表示堿基n 的個數(shù)。在堿基n 第一次出現(xiàn)之前,位置記為0;兩個堿基n 之間的位置記為它們的平均值;最后一個堿基n 之后的位置都記為最后一個堿基n 出現(xiàn)的位置。

      以序列a 為例,CT=5,LT1=2,LT2=13,LT3=15,LT4=17,LT5=19,故ST(2)=2,ST(13)=13,ST(15)=15,ST(17)=17,ST(19)=19;第一個T 出現(xiàn)之前,ST(1)=0;最后一個T 之后,ST(20)=19;兩個T 之間,ST(3)=ST(4)=…=ST(12)=(2+13)/2=7.5,ST(14)=(13+15)/2=14,ST(16)=(15+17)/2=16,ST(18)=(17+19)/2=18,即堿基T 在序列a 中的位置分布為:

      同理計算出堿基G 在序列a 中的位置分布為:

      為體現(xiàn)序列中兩種不同堿基的相關程度并用數(shù)值表示出來,可用皮爾森相關系數(shù)來計算,定義是兩個變量之間的協(xié)方差和標準差的商:

      綜上,本文提取出DNA 序列中基于堿基頻率、堿基間的距離和相關性的110 維特征向量:

      將其作為KNN 算法中的特征輸入,對病毒序列進行分類研究。

      3 實驗結果分析

      本文采用的實驗數(shù)據均來源于美國國家生物技術信息中心(NCBI)。從NCBI 網站上下載6 種不同病毒(H1N1,H5N1,H7N9,SARS,MERS,COVID-19)的DNA 序列,前3 種為非冠狀病毒,后3 種為冠狀病毒。每種病毒各取50 組序列,總共300組,其中150 組的類別為“冠狀”,另外150 組類別為“非冠狀”,每組序列包含240 個堿基。用Python 中的scikit-learn 模塊對序列進行二分類,評估指標為分類準確率(Accuracy),即正確分類的序列個數(shù)占總序列個數(shù)的比例。

      首先用KNN 算法進行兩輪實驗,第一輪實驗的數(shù)據是堿基的頻率特征,即序列中單堿基、雙堿基和三堿基的頻率,共84 維數(shù)據。第二輪實驗的數(shù)據是在第一輪實驗的基礎上增加堿基的距離和相關性特征,共110 維數(shù)據。兩輪實驗分別測試不同K 值下的分類準確率,結果如表1 所示。

      表1 兩種特征提取方法的分類準確率Tab.1 Classification accuracy of the two feature extraction methods

      由表1 可知,在K 值為3~7 的情況下,分類準確率呈拋物線趨勢,先增后減。在僅采用堿基頻率特征的算法中,K=5 時分類準確率最高,為96.02%,K=4 次之;增加了堿基距離和相關性特征的實驗中,K=6 時分類準確率最高,為97.72%,K=5 次之。無論K 的取值為多大,增加了距離特征之后的分類模型都是更有效的,準確率均提高1%~2%左右。

      上述實驗中訓練樣本與測試樣本的比例為7:3,即210 組訓練序列,90 組測試序列??紤]到測試樣本的歸類是以訓練樣本的類別為依據的,此比例可能會影響分類結果。本文在訓練樣本數(shù)量應大于測試樣本數(shù)量的原則上,適當調整了比例,以堿基的頻率和位置信息的110維特征作為輸入進行了重復實驗,結果如表2 所示。

      由表2 可知,訓練集與測試集比例為8:2 且K=6時,訓練集與測試集比例為9:1 且K=5 或K=6時,分類的準確率能達到98%以上。比例為8:2 且K 的取值為5 時的準確率非常接近98%,這正說明K 的取值偏大或偏小都會使得分類效果降低,在K=5 和K=6 時可達到較高的準確率。此外,無論K 的取值為多少,分類準確率都會隨著訓練集和測試集比例的增加而提高,即訓練樣本較多時模型能更加高效地學習。綜上,將采用訓練集與測試集比例為9:1,K=6 的KNN 模型進行序列的分類,此時準確率最高,為98.47%。

      表2 不同比例下的分類準確率Tab.2 Classification accuracy of different proportions

      4 結語

      本文闡述了DNA 序列中堿基位置信息的重要性,提出一種基于堿基之間的距離和相關性特征表示方法,將其運用于6 種病毒序列的特征提取,并利用KNN 算法進行分類,實驗結果表明該特征提取方法能提高分類準確率。這種方法提取的特征向量維數(shù)較高,因此更適用于多個DNA 序列的分類研究。

      引用

      [1] 竇向梅,肖暉,黃大衛(wèi).DNA分類概述[J].生物學通報,2008,43(6):23-25.

      [2] 劉福樂.DNA、RNA和蛋白質序列特征提取方法研究及應用[D].哈爾濱:哈爾濱工業(yè)大學,2015.

      [3] Shobhit Gupta,Jonathan Dennis,Robert E Thurman,et al.Predicting Human Nucleosome Occupancy from Primary Sequence[J].PLoS Computational Biology,2008,4(8): e1000134.

      [4] 李郅琴.特征選擇方法綜述[J].計算機工程與應用,2019,55 (24):10-11.

      [5] 韓軼平,余杭,劉威,等.DNA序列的分類[J].數(shù)學的實踐與汄識,2001(1):38-45.

      [6] 皮亞宸.K近鄰分類算法的應用研究[J].通訊世界,2019,26(1): 286-287.

      猜你喜歡
      訓練樣本堿基特征提取
      應用思維進階構建模型 例談培養(yǎng)學生創(chuàng)造性思維
      人工智能
      中國科學家創(chuàng)建出新型糖基化酶堿基編輯器
      生命“字母表”迎來4名新成員
      科學24小時(2019年5期)2019-06-11 08:39:38
      生命“字母表”迎來4名新成員
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      Bagging RCSP腦電特征提取算法
      寬帶光譜成像系統(tǒng)最優(yōu)訓練樣本選擇方法研究
      融合原始樣本和虛擬樣本的人臉識別算法
      電視技術(2016年9期)2016-10-17 09:13:41
      基于稀疏重構的機載雷達訓練樣本挑選方法

      历史| 武平县| 舟曲县| 西乌珠穆沁旗| 玛曲县| 汤原县| 中西区| 汨罗市| 潜江市| 韶关市| 东平县| 郁南县| 太仆寺旗| 菏泽市| 日土县| 固阳县| 孟连| 广元市| 济源市| 镇原县| 沿河| 思南县| 镇江市| 衢州市| 石渠县| 广德县| 连城县| 贵定县| 雷州市| 兴义市| 湟源县| 宣威市| 和林格尔县| 拜泉县| 衡东县| 兴仁县| 措美县| 黔东| 棋牌| 常山县| 谢通门县|