• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于支持向量機(jī)的供體剪接位點(diǎn)識(shí)別

      2018-10-20 17:43曾瑩
      數(shù)碼設(shè)計(jì) 2018年12期
      關(guān)鍵詞:供體堿基位點(diǎn)

      曾瑩

      摘要:剪接位點(diǎn)識(shí)別是基因識(shí)別中的關(guān)鍵環(huán)節(jié)。本文對(duì)待測(cè)樣本采用0/1編碼,以表征各位置上的堿基,并結(jié)合堿基二聯(lián)體出現(xiàn)的頻次,最后采用支持向量機(jī)( SVM)進(jìn)行分類決策。HS3D數(shù)據(jù)集上的仿真結(jié)果顯示,本方法獲得的預(yù)測(cè)精度為92.84%。

      關(guān)鍵詞:剪接位點(diǎn);基因識(shí)別;支持向量機(jī)( SVM);0/1編碼

      中圖分類號(hào):Q271

      文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1672 - 9129(2018)12 - 0082 - 01

      引言:隨著人類基因組計(jì)劃的實(shí)施,基因組序列數(shù)據(jù)呈指數(shù)增長(zhǎng)。如何解讀人類基因組,挖掘其背后隱藏的信息,是一個(gè)迫切需要解決的問(wèn)題?;蜃R(shí)別基因組注釋的核心任務(wù)之一,旨在采用生物學(xué)實(shí)驗(yàn)或計(jì)算機(jī)手段識(shí)別DNA序列中的基因。絕大多數(shù)真核基因是不連續(xù)結(jié)構(gòu),由外顯子和內(nèi)含子交替組成,其中,外顯子是編碼蛋白質(zhì)的序列片段,內(nèi)含子是非編碼蛋白質(zhì)的序列片段。外顯子和內(nèi)含子的邊界即為剪接位點(diǎn),內(nèi)含子的5端起始?jí)A基為CT,稱作供體剪接位點(diǎn),3端起始?jí)A基為AC,稱作受體剪接位點(diǎn)。因此,準(zhǔn)確識(shí)別剪接位點(diǎn),能夠精準(zhǔn)定位基因外顯子的邊界,對(duì)于真核生物基因識(shí)別起著至關(guān)重要的作用。盡管99%的剪接位點(diǎn)遵循“CT - AC”規(guī)則,但這種強(qiáng)保守性并不能有效檢測(cè)剪接位點(diǎn),因?yàn)樵贒NA序列的非剪接位點(diǎn)上還存在著大量GT/AG,因此,剪接位點(diǎn)識(shí)別可以看成一個(gè)二分類問(wèn)題。本文主要研究基于機(jī)器學(xué)習(xí)方法的供體剪接位點(diǎn)識(shí)別。

      1 數(shù)據(jù)及其預(yù)處理

      實(shí)驗(yàn)數(shù)據(jù)源自HS3D( home sapiens splice sites dataset)數(shù)據(jù)集。我們從該數(shù)據(jù)集中選取2796個(gè)真實(shí)供體位點(diǎn)作為正樣本,并隨機(jī)抽取2796個(gè)虛假供體位點(diǎn)作為負(fù)樣本。所有樣本均為140個(gè)堿基長(zhǎng)度(即140bp)的序列,其中第1~70個(gè)堿基為外顯子序列,第70~140個(gè)堿基屬于內(nèi)含子,而保守位點(diǎn)CT則位于第71、72位。

      本文將序列中保守GT的位置設(shè)為00,上游區(qū)域位置分別標(biāo)記為-l,-2,…,- 70,下游區(qū)域位置則記為l,2,…,68。對(duì)樣本序列中的每個(gè)位置,分別構(gòu)建一張24的列聯(lián)表,以統(tǒng)計(jì)該位置上的四種堿基在正負(fù)樣本中出現(xiàn)頻次,然后計(jì)算各個(gè)位置對(duì)應(yīng)的卡平方值,由于序列-3~+5、+7、+8、+10位的卡平方值高于其他位點(diǎn)卡平方值的平均值,考慮到窗口的連續(xù)性,我們最終確定序列長(zhǎng)度為8bp(-3~ +5,不含00位),后續(xù)實(shí)驗(yàn)均基于8bp供體位點(diǎn)序列。

      2 特征提取

      對(duì)序列長(zhǎng)度為8bp的各個(gè)樣本,首先將其每個(gè)位置上的A,C,G,T四種堿基分別按:A - 0001,C- 0010,G- 0100,T- 1000進(jìn)行編碼;然后,分別提取16個(gè)堿基二聯(lián)體(即二聯(lián)體AA,AT,AC--)在序列中出現(xiàn)的頻次。這樣,對(duì)任一個(gè)序列樣本,可得到一個(gè)48維(8 x4+16)特征向量。

      3 基于SVM的分類決策

      SVM能夠解決小樣本、高維數(shù)、非線性、過(guò)擬合及局部最小等問(wèn)題,在生物信息、圖像識(shí)別等問(wèn)題中得到了廣泛應(yīng)用。本文采用LIBSVM作為分類器,其核函數(shù)固定為徑向基核,參數(shù)c、g自動(dòng)搜索獲取。

      4 實(shí)驗(yàn)結(jié)果

      在HS3D數(shù)據(jù)集(2796/2796個(gè)正/負(fù)樣本)上,采用10折交叉測(cè)試進(jìn)行驗(yàn)證,即將數(shù)據(jù)集均分為10份,每次使用其中的9份進(jìn)行訓(xùn)練,余下的l份進(jìn)行測(cè)試,重復(fù)10次,最后將10次測(cè)試的精度均值作為最終結(jié)果,即敏感性( Sensitivity,SN)為0.9233、特異性(Specificity,sP)為0.9335、準(zhǔn)確度( Accuracy,ACC)為0.9284。

      參考文獻(xiàn):

      [1]馬猛,汪洋.應(yīng)用序列特征分析基因剪接信號(hào)[J].計(jì)算機(jī)工程與應(yīng)用,2012,48( 27):180 - 185.

      [2] Li J L,Wang L F,Wang H Y, et al.High - accuracy splice siteprediction hased on sequence, component and position features[J]. Cenetics&Molecular Research 2012. 11(3):3432 - 51.

      [3]李琴,張瑾,駢聰?shù)?基于位置關(guān)聯(lián)權(quán)重矩陣及序列組分的多樣性增量識(shí)別剪接位點(diǎn)[J].生物物理學(xué)報(bào)2014,30(5):391 -400.

      [4] Meher P.Sahu T,Rao A, et al.A statistical approach for 5'splicesite prediction using short sequence motifs and without encoding sequence data[J].BMC Bioinformatics 2014, 15(1):1- 14.

      猜你喜歡
      供體堿基位點(diǎn)
      基因“字母表”擴(kuò)充后的生命
      相信科學(xué)!DNA追兇是如何實(shí)現(xiàn)的?
      創(chuàng)建新型糖基化酶堿基編輯器
      DNA甲基化跨代遺傳取得新進(jìn)展(2020.6.11 中國(guó)科學(xué)院)
      雞BCO2基因功能性單核苷酸多態(tài)性的生物 信息分析
      生命“字母表”迎來(lái)新成員
      生命“字母表”迎來(lái)4名新成員
      一種改進(jìn)的多聚腺苷酸化位點(diǎn)提取方法
      我國(guó)活體器官移植供體的民法保護(hù)
      淺析民事法律關(guān)系客體
      民乐县| 吉木乃县| 荃湾区| 宁陵县| 潜江市| 龙州县| 黄骅市| 沙河市| 饶河县| 普格县| 东源县| 江达县| 万全县| 保德县| 阳原县| 文安县| 沙田区| 洛阳市| 星子县| 阜阳市| 双城市| 丰原市| 武邑县| 晋州市| 筠连县| 高雄市| 中卫市| 阳高县| 甘洛县| 武城县| 建阳市| 大洼县| 开远市| 马龙县| 东宁县| 沂南县| 裕民县| 巫山县| 招远市| 舟曲县| 平江县|