99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

<sup id="kk0kk"></sup>

<nav id="kk0kk"><sup id="kk0kk"></sup></nav><sup id="kk0kk"></sup>

<noscript id="kk0kk"><dd id="kk0kk"></dd></noscript>

<small id="kk0kk"></small>

<nav id="kk0kk"></nav>

<nav id="kk0kk"><sup id="kk0kk"></sup></nav>

?

基于支持向量機(jī)的供體剪接位點(diǎn)識(shí)別

2018-10-20 17:43曾瑩

數(shù)碼設(shè)計(jì) 2018年12期

關(guān)鍵詞：供體堿基位點(diǎn)

曾瑩

摘要：剪接位點(diǎn)識(shí)別是基因識(shí)別中的關(guān)鍵環(huán)節(jié)。本文對(duì)待測(cè)樣本采用0/1編碼，以表征各位置上的堿基，并結(jié)合堿基二聯(lián)體出現(xiàn)的頻次，最后采用支持向量機(jī)（ SVM）進(jìn)行分類決策。HS3D數(shù)據(jù)集上的仿真結(jié)果顯示，本方法獲得的預(yù)測(cè)精度為92.84%。

關(guān)鍵詞：剪接位點(diǎn);基因識(shí)別;支持向量機(jī)（ SVM）;0/1編碼

中圖分類號(hào)：Q271

文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1672 - 9129（2018）12 - 0082 - 01

引言：隨著人類基因組計(jì)劃的實(shí)施，基因組序列數(shù)據(jù)呈指數(shù)增長(zhǎng)。如何解讀人類基因組，挖掘其背后隱藏的信息，是一個(gè)迫切需要解決的問(wèn)題?；蜃R(shí)別基因組注釋的核心任務(wù)之一，旨在采用生物學(xué)實(shí)驗(yàn)或計(jì)算機(jī)手段識(shí)別DNA序列中的基因。絕大多數(shù)真核基因是不連續(xù)結(jié)構(gòu)，由外顯子和內(nèi)含子交替組成，其中，外顯子是編碼蛋白質(zhì)的序列片段，內(nèi)含子是非編碼蛋白質(zhì)的序列片段。外顯子和內(nèi)含子的邊界即為剪接位點(diǎn)，內(nèi)含子的5端起始?jí)A基為CT，稱作供體剪接位點(diǎn)，3端起始?jí)A基為AC，稱作受體剪接位點(diǎn)。因此，準(zhǔn)確識(shí)別剪接位點(diǎn)，能夠精準(zhǔn)定位基因外顯子的邊界，對(duì)于真核生物基因識(shí)別起著至關(guān)重要的作用。盡管99%的剪接位點(diǎn)遵循“CT - AC”規(guī)則，但這種強(qiáng)保守性并不能有效檢測(cè)剪接位點(diǎn)，因?yàn)樵贒NA序列的非剪接位點(diǎn)上還存在著大量GT/AG，因此，剪接位點(diǎn)識(shí)別可以看成一個(gè)二分類問(wèn)題。本文主要研究基于機(jī)器學(xué)習(xí)方法的供體剪接位點(diǎn)識(shí)別。

1 數(shù)據(jù)及其預(yù)處理

實(shí)驗(yàn)數(shù)據(jù)源自HS3D（ home sapiens splice sites dataset）數(shù)據(jù)集。我們從該數(shù)據(jù)集中選取2796個(gè)真實(shí)供體位點(diǎn)作為正樣本，并隨機(jī)抽取2796個(gè)虛假供體位點(diǎn)作為負(fù)樣本。所有樣本均為140個(gè)堿基長(zhǎng)度（即140bp）的序列，其中第1～70個(gè)堿基為外顯子序列，第70～140個(gè)堿基屬于內(nèi)含子，而保守位點(diǎn)CT則位于第71、72位。

本文將序列中保守GT的位置設(shè)為00，上游區(qū)域位置分別標(biāo)記為-l，-2，…，- 70，下游區(qū)域位置則記為l，2，…，68。對(duì)樣本序列中的每個(gè)位置，分別構(gòu)建一張24的列聯(lián)表，以統(tǒng)計(jì)該位置上的四種堿基在正負(fù)樣本中出現(xiàn)頻次，然后計(jì)算各個(gè)位置對(duì)應(yīng)的卡平方值，由于序列-3～+5、+7、+8、+10位的卡平方值高于其他位點(diǎn)卡平方值的平均值，考慮到窗口的連續(xù)性，我們最終確定序列長(zhǎng)度為8bp（-3～ +5，不含00位），后續(xù)實(shí)驗(yàn)均基于8bp供體位點(diǎn)序列。

2 特征提取

對(duì)序列長(zhǎng)度為8bp的各個(gè)樣本，首先將其每個(gè)位置上的A，C，G，T四種堿基分別按：A - 0001，C- 0010，G- 0100，T- 1000進(jìn)行編碼;然后，分別提取16個(gè)堿基二聯(lián)體（即二聯(lián)體AA，AT，AC--）在序列中出現(xiàn)的頻次。這樣，對(duì)任一個(gè)序列樣本，可得到一個(gè)48維（8 x4+16）特征向量。

3 基于SVM的分類決策

SVM能夠解決小樣本、高維數(shù)、非線性、過(guò)擬合及局部最小等問(wèn)題，在生物信息、圖像識(shí)別等問(wèn)題中得到了廣泛應(yīng)用。本文采用LIBSVM作為分類器，其核函數(shù)固定為徑向基核，參數(shù)c、g自動(dòng)搜索獲取。

4 實(shí)驗(yàn)結(jié)果

在HS3D數(shù)據(jù)集（2796/2796個(gè)正/負(fù)樣本）上，采用10折交叉測(cè)試進(jìn)行驗(yàn)證，即將數(shù)據(jù)集均分為10份，每次使用其中的9份進(jìn)行訓(xùn)練，余下的l份進(jìn)行測(cè)試，重復(fù)10次，最后將10次測(cè)試的精度均值作為最終結(jié)果，即敏感性（ Sensitivity，SN）為0.9233、特異性（Specificity，sP）為0.9335、準(zhǔn)確度（ Accuracy，ACC）為0.9284。

參考文獻(xiàn)：

[1]馬猛，汪洋.應(yīng)用序列特征分析基因剪接信號(hào)[J].計(jì)算機(jī)工程與應(yīng)用，2012，48（ 27）：180 - 185.

[2] Li J L，Wang L F，Wang H Y， et al.High - accuracy splice siteprediction hased on sequence， component and position features[J]. Cenetics&Molecular Research 2012. 11（3）：3432 - 51.

[3]李琴，張瑾，駢聰?shù)?基于位置關(guān)聯(lián)權(quán)重矩陣及序列組分的多樣性增量識(shí)別剪接位點(diǎn)[J].生物物理學(xué)報(bào)2014，30（5）：391 -400.

[4] Meher P.Sahu T，Rao A， et al.A statistical approach for 5'splicesite prediction using short sequence motifs and without encoding sequence data[J].BMC Bioinformatics 2014， 15（1）：1- 14.

猜你喜歡

供體堿基位點(diǎn)

基因“字母表”擴(kuò)充后的生命

科學(xué)之謎(2021年2期)2021-04-25

相信科學(xué)！DNA追兇是如何實(shí)現(xiàn)的？

電腦報(bào)(2020年40期)2020-11-06

創(chuàng)建新型糖基化酶堿基編輯器

科學(xué)導(dǎo)報(bào)(2020年54期)2020-09-09

DNA甲基化跨代遺傳取得新進(jìn)展（2020.6.11 中國(guó)科學(xué)院）

三農(nóng)資訊半月報(bào)(2020年11期)2020-06-21

雞BCO2基因功能性單核苷酸多態(tài)性的生物信息分析

家禽科學(xué)(2019年4期)2019-07-08

生命“字母表”迎來(lái)新成員

學(xué)苑創(chuàng)造·B版(2019年5期)2019-06-14

生命“字母表”迎來(lái)4名新成員

科學(xué)24小時(shí)(2019年5期)2019-06-11

一種改進(jìn)的多聚腺苷酸化位點(diǎn)提取方法

電腦知識(shí)與技術(shù)(2018年19期)2018-11-01

我國(guó)活體器官移植供體的民法保護(hù)

法制博覽(2018年1期)2018-02-24

淺析民事法律關(guān)系客體

職工法律天地·下半月(2016年6期)2017-05-24

數(shù)碼設(shè)計(jì)2018年12期

數(shù)碼設(shè)計(jì)的其它文章: 新工科背景下的大學(xué)計(jì)算機(jī)基礎(chǔ)課程體系改革和教學(xué)模式創(chuàng)新研究; 計(jì)算機(jī)算法動(dòng)態(tài)系統(tǒng)中的遞歸算法與遺傳算法的探討; 大數(shù)據(jù)云計(jì)算環(huán)境下的數(shù)據(jù)安全; 大數(shù)據(jù)云計(jì)算環(huán)境下的數(shù)據(jù)安全分析; 高職院校大數(shù)據(jù)時(shí)代的智慧校園建設(shè); 關(guān)于電力仿真培訓(xùn)軟件中如何控制講解的探討

民乐县| 吉木乃县| 荃湾区| 宁陵县| 潜江市| 龙州县| 黄骅市| 沙河市| 饶河县| 普格县| 东源县| 江达县| 万全县| 保德县| 阳原县| 文安县| 沙田区| 洛阳市| 星子县| 阜阳市| 双城市| 丰原市| 武邑县| 晋州市| 筠连县| 高雄市| 中卫市| 阳高县| 甘洛县| 武城县| 建阳市| 大洼县| 开远市| 马龙县| 东宁县| 沂南县| 裕民县| 巫山县| 招远市| 舟曲县| 平江县|

<tfoot id="4kkkk"><noscript id="4kkkk"></noscript></tfoot><nav id="4kkkk"><sup id="4kkkk"></sup></nav>

<tr id="4kkkk"></tr><tfoot id="4kkkk"></tfoot>

<nav id="4kkkk"><sup id="4kkkk"></sup></nav>