曾瑩
摘要:剪接位點(diǎn)識(shí)別是基因識(shí)別中的關(guān)鍵環(huán)節(jié)。本文對(duì)待測(cè)樣本采用0/1編碼,以表征各位置上的堿基,并結(jié)合堿基二聯(lián)體出現(xiàn)的頻次,最后采用支持向量機(jī)( SVM)進(jìn)行分類決策。HS3D數(shù)據(jù)集上的仿真結(jié)果顯示,本方法獲得的預(yù)測(cè)精度為92.84%。
關(guān)鍵詞:剪接位點(diǎn);基因識(shí)別;支持向量機(jī)( SVM);0/1編碼
中圖分類號(hào):Q271
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1672 - 9129(2018)12 - 0082 - 01
引言:隨著人類基因組計(jì)劃的實(shí)施,基因組序列數(shù)據(jù)呈指數(shù)增長(zhǎng)。如何解讀人類基因組,挖掘其背后隱藏的信息,是一個(gè)迫切需要解決的問(wèn)題?;蜃R(shí)別基因組注釋的核心任務(wù)之一,旨在采用生物學(xué)實(shí)驗(yàn)或計(jì)算機(jī)手段識(shí)別DNA序列中的基因。絕大多數(shù)真核基因是不連續(xù)結(jié)構(gòu),由外顯子和內(nèi)含子交替組成,其中,外顯子是編碼蛋白質(zhì)的序列片段,內(nèi)含子是非編碼蛋白質(zhì)的序列片段。外顯子和內(nèi)含子的邊界即為剪接位點(diǎn),內(nèi)含子的5端起始?jí)A基為CT,稱作供體剪接位點(diǎn),3端起始?jí)A基為AC,稱作受體剪接位點(diǎn)。因此,準(zhǔn)確識(shí)別剪接位點(diǎn),能夠精準(zhǔn)定位基因外顯子的邊界,對(duì)于真核生物基因識(shí)別起著至關(guān)重要的作用。盡管99%的剪接位點(diǎn)遵循“CT - AC”規(guī)則,但這種強(qiáng)保守性并不能有效檢測(cè)剪接位點(diǎn),因?yàn)樵贒NA序列的非剪接位點(diǎn)上還存在著大量GT/AG,因此,剪接位點(diǎn)識(shí)別可以看成一個(gè)二分類問(wèn)題。本文主要研究基于機(jī)器學(xué)習(xí)方法的供體剪接位點(diǎn)識(shí)別。
1 數(shù)據(jù)及其預(yù)處理
實(shí)驗(yàn)數(shù)據(jù)源自HS3D( home sapiens splice sites dataset)數(shù)據(jù)集。我們從該數(shù)據(jù)集中選取2796個(gè)真實(shí)供體位點(diǎn)作為正樣本,并隨機(jī)抽取2796個(gè)虛假供體位點(diǎn)作為負(fù)樣本。所有樣本均為140個(gè)堿基長(zhǎng)度(即140bp)的序列,其中第1~70個(gè)堿基為外顯子序列,第70~140個(gè)堿基屬于內(nèi)含子,而保守位點(diǎn)CT則位于第71、72位。
本文將序列中保守GT的位置設(shè)為00,上游區(qū)域位置分別標(biāo)記為-l,-2,…,- 70,下游區(qū)域位置則記為l,2,…,68。對(duì)樣本序列中的每個(gè)位置,分別構(gòu)建一張24的列聯(lián)表,以統(tǒng)計(jì)該位置上的四種堿基在正負(fù)樣本中出現(xiàn)頻次,然后計(jì)算各個(gè)位置對(duì)應(yīng)的卡平方值,由于序列-3~+5、+7、+8、+10位的卡平方值高于其他位點(diǎn)卡平方值的平均值,考慮到窗口的連續(xù)性,我們最終確定序列長(zhǎng)度為8bp(-3~ +5,不含00位),后續(xù)實(shí)驗(yàn)均基于8bp供體位點(diǎn)序列。
2 特征提取
對(duì)序列長(zhǎng)度為8bp的各個(gè)樣本,首先將其每個(gè)位置上的A,C,G,T四種堿基分別按:A - 0001,C- 0010,G- 0100,T- 1000進(jìn)行編碼;然后,分別提取16個(gè)堿基二聯(lián)體(即二聯(lián)體AA,AT,AC--)在序列中出現(xiàn)的頻次。這樣,對(duì)任一個(gè)序列樣本,可得到一個(gè)48維(8 x4+16)特征向量。
3 基于SVM的分類決策
SVM能夠解決小樣本、高維數(shù)、非線性、過(guò)擬合及局部最小等問(wèn)題,在生物信息、圖像識(shí)別等問(wèn)題中得到了廣泛應(yīng)用。本文采用LIBSVM作為分類器,其核函數(shù)固定為徑向基核,參數(shù)c、g自動(dòng)搜索獲取。
4 實(shí)驗(yàn)結(jié)果
在HS3D數(shù)據(jù)集(2796/2796個(gè)正/負(fù)樣本)上,采用10折交叉測(cè)試進(jìn)行驗(yàn)證,即將數(shù)據(jù)集均分為10份,每次使用其中的9份進(jìn)行訓(xùn)練,余下的l份進(jìn)行測(cè)試,重復(fù)10次,最后將10次測(cè)試的精度均值作為最終結(jié)果,即敏感性( Sensitivity,SN)為0.9233、特異性(Specificity,sP)為0.9335、準(zhǔn)確度( Accuracy,ACC)為0.9284。
參考文獻(xiàn):
[1]馬猛,汪洋.應(yīng)用序列特征分析基因剪接信號(hào)[J].計(jì)算機(jī)工程與應(yīng)用,2012,48( 27):180 - 185.
[2] Li J L,Wang L F,Wang H Y, et al.High - accuracy splice siteprediction hased on sequence, component and position features[J]. Cenetics&Molecular Research 2012. 11(3):3432 - 51.
[3]李琴,張瑾,駢聰?shù)?基于位置關(guān)聯(lián)權(quán)重矩陣及序列組分的多樣性增量識(shí)別剪接位點(diǎn)[J].生物物理學(xué)報(bào)2014,30(5):391 -400.
[4] Meher P.Sahu T,Rao A, et al.A statistical approach for 5'splicesite prediction using short sequence motifs and without encoding sequence data[J].BMC Bioinformatics 2014, 15(1):1- 14.