胡 震
(景德鎮(zhèn)陶瓷大學(xué),江西 景德鎮(zhèn) 333000)
枯草桿菌是革蘭氏陽(yáng)性菌中比較有代表性的模式生物,啟動(dòng)子作為RNA聚合酶結(jié)合的靶序列,其預(yù)測(cè)和分析對(duì)于研究枯草桿菌的基因序列關(guān)系有著非常重要的作用。利用高精度的預(yù)測(cè)算法能夠有效地補(bǔ)充傳統(tǒng)實(shí)驗(yàn)中對(duì)于枯草桿菌的相關(guān)研究。支持向量機(jī)在解決小樣本、非線(xiàn)性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),因此,利用支持向量機(jī)的方法展開(kāi)針對(duì)枯草桿菌的啟動(dòng)子預(yù)測(cè)和分析,正是文章探討的中心內(nèi)容。
枯草桿菌(又名枯草芽孢桿菌)雖然是革蘭氏陽(yáng)性菌中比較典型的一種菌株,但是應(yīng)用其制備發(fā)酵制品的時(shí)候,該菌株是非致病的。又因?yàn)槠渚邆渥陨砗铣上悦割?lèi)(如蛋白酶、纖維素酶),可以在消化道中與內(nèi)源酶發(fā)生共生作用,合成多種維生素,提高和人動(dòng)物體內(nèi)的干擾素和巨噬細(xì)胞活性的諸多特點(diǎn),美國(guó)的FDA和中國(guó)農(nóng)業(yè)部等相關(guān)部門(mén)都認(rèn)可批準(zhǔn)其是安全級(jí)的食品菌株。有相關(guān)研究表明,枯草桿菌可以改善血清總膽紅素值,能夠用于治療新生兒的母乳性黃疸和子宮肌瘤等婦幼疾病。因此,把枯草桿菌作為一種益生菌積極應(yīng)用進(jìn)入醫(yī)療衛(wèi)生行業(yè),能夠有效提高人類(lèi)的生命質(zhì)量,維護(hù)人類(lèi)健康。
而要想把枯草桿菌進(jìn)行大規(guī)模的工業(yè)開(kāi)發(fā),基因工程技術(shù)的應(yīng)用就顯得尤為重要。啟動(dòng)子是基因表達(dá)中的一個(gè)重要調(diào)控序列,能夠在DNA轉(zhuǎn)換成RNA時(shí)發(fā)揮重要的作用,按照克拉克提出的中心法則,DNA轉(zhuǎn)換成RNA再轉(zhuǎn)換成蛋白質(zhì),從這個(gè)鏈條來(lái)看,啟動(dòng)子發(fā)揮的作用顯而易見(jiàn),它就像是一個(gè)“開(kāi)關(guān)”,決定基因的活動(dòng)走向,而當(dāng)中的組織特異性啟動(dòng)子,能夠?yàn)獒t(yī)學(xué)上特殊疾病的靶向治療提供實(shí)現(xiàn)的可能??莶輻U菌的毒素和亞基(SUBA)結(jié)合,能夠摧毀葡萄糖調(diào)節(jié)蛋白78的結(jié)構(gòu)(GRP78),誘導(dǎo)細(xì)胞凋亡,結(jié)合前文所描述的該菌株的其他作用,枯草桿菌作為抗癌藥物的生產(chǎn)能夠有效支持面向惡性腫瘤的靶向治療?;谥С窒蛄繖C(jī)的枯草桿菌啟動(dòng)子預(yù)測(cè)技術(shù)的研究開(kāi)展,就是為了挖掘出枯草桿菌的臨床應(yīng)用區(qū)域,更好地為人類(lèi)的健康事業(yè)服務(wù)。
對(duì)于枯草桿菌的研究,早在100多年前就已經(jīng)開(kāi)始涉及。主要的研究?jī)?nèi)容大都聚焦在形態(tài)功能觀察和功能鑒定等方面,近40年來(lái),與之相關(guān)的生理、生化、遺傳及分子生物學(xué)的研究陸續(xù)積極展開(kāi)。尤其,隨著分子生物學(xué)和基因工程的快速發(fā)展,其作為基因工程表達(dá)系統(tǒng)發(fā)展迅速,并展現(xiàn)出良好的應(yīng)用前景。因此總的來(lái)說(shuō),在生物信息學(xué)方面,國(guó)內(nèi)外的研究水平都處于逐年升高的趨勢(shì)。
在啟動(dòng)子研究方面,啟動(dòng)子序列克隆的多種方法促進(jìn)了啟動(dòng)子分離技術(shù)的突飛猛進(jìn),各類(lèi)型的啟動(dòng)子不斷得到提取,利用生物信息學(xué)方法來(lái)預(yù)測(cè)啟動(dòng)子的功能屬性也得到了相對(duì)廣 泛 的 應(yīng) 用 ,Core Promoter、Promoter 2.0、Mat Inspector、Tf site scan、Sigscan、Tf search和Consite等相應(yīng)軟件也不斷研發(fā)出來(lái),并投入到實(shí)際的應(yīng)用當(dāng)中。倪偉明等利用Neural network promoter prediction在糞腸球菌基因組中預(yù)測(cè)了乳酸脫氫酶和三磷酸甘油醛脫氫酶的啟動(dòng)子序列,并證明其具有啟動(dòng)活性;蘇紅等分析了牛Gt12基因的側(cè)翼序列,找到其潛在的啟動(dòng)子序列,并成功克隆出牛Gt12基因的啟動(dòng)子序列;中國(guó)計(jì)量學(xué)院學(xué)者利用支持向量機(jī)技術(shù)開(kāi)發(fā)了預(yù)測(cè)人類(lèi)核心啟動(dòng)子的系統(tǒng)。
國(guó)外方面,相較于國(guó)內(nèi)更偏重于特異性啟動(dòng)子預(yù)測(cè)的研究,國(guó)外會(huì)比較偏重于共性的啟動(dòng)子預(yù)測(cè)研究。從主要成型的技術(shù)成果來(lái)看,包括了ANN技術(shù)(基于人工神經(jīng)網(wǎng)絡(luò))、SVM技術(shù)(基于支持向量機(jī))、PWM技術(shù)(基于位置權(quán)值矩陣)和QDA技術(shù)(基于二次判別分析)。其中,文章論述的支持向量機(jī)就是Vapnik等人在1995年提出來(lái)的;Rajeev Gangal等人就利用該項(xiàng)技術(shù)開(kāi)發(fā)了預(yù)測(cè)人類(lèi)RNA聚合酶II的啟動(dòng)子工具Prometheus。
啟動(dòng)子作為基因的組成部分,包含范圍非常之廣,所以要預(yù)測(cè)啟動(dòng)子并不是一件容易的事。為了最大化利用支持向量機(jī)的特點(diǎn)進(jìn)行預(yù)測(cè),首先需要解決的是將枯草桿菌轉(zhuǎn)錄調(diào)控?cái)?shù)據(jù)庫(kù)DBTBS中收集到的枯草桿菌啟動(dòng)子數(shù)據(jù)的特征提取的問(wèn)題,從而獲得含枯草桿菌啟動(dòng)子信息的特征向量,最后在利用支持向量機(jī)對(duì)特征向量進(jìn)行訓(xùn)練和判別。該方法解決了一般的啟動(dòng)子預(yù)測(cè)模型在數(shù)據(jù)上的準(zhǔn)確度不高以及適用范圍局限性的問(wèn)題。這不僅是機(jī)器學(xué)習(xí)算法與生物模型的一次結(jié)合應(yīng)用,更是利用智能算法對(duì)傳統(tǒng)預(yù)測(cè)的一次有益嘗試。
在充分利用了啟動(dòng)子序列區(qū)域的全局組成特征、局部信號(hào)特征以及結(jié)構(gòu)特征的基礎(chǔ)上,首先選取適當(dāng)?shù)奶卣髂P头謩e計(jì)算各個(gè)特征得分,再將特征得分組合成高維特征向量,繼而在特征空間中利用SVM對(duì)向量進(jìn)行訓(xùn)練和判別,對(duì)枯草桿菌實(shí)際數(shù)據(jù)集的測(cè)試結(jié)果表明,研究提出的算法可以對(duì)啟動(dòng)子進(jìn)行有效的預(yù)測(cè),并對(duì)多類(lèi)啟動(dòng)子有廣泛的適用性。
針對(duì)上述的幾個(gè)問(wèn)題,本課題的研究將分步驟進(jìn)行,在研究過(guò)程中,將跟蹤近些年比較先進(jìn)的研究理論和方法。此外,文章中所需要的數(shù)據(jù)都可以從權(quán)威的數(shù)據(jù)庫(kù)中下載,這為本次研究提供了便利條件。
本次項(xiàng)目研究路線(xiàn)圖如圖1所示:
圖1 研究方案路線(xiàn)圖
孟玲玲于2015年提出了“基于支持向量機(jī)的組合預(yù)測(cè)模型及其應(yīng)用研究”并進(jìn)行了詳細(xì)的描述,具有充分的理論支持。由于文章所采用的數(shù)據(jù)主要從枯草桿菌轉(zhuǎn)錄調(diào)控?cái)?shù)據(jù)庫(kù)DBTBS中收集整理而來(lái),是目前已被實(shí)驗(yàn)證實(shí)的枯草桿菌啟動(dòng)子數(shù)據(jù),具有一定的準(zhǔn)確性和權(quán)威性,這也為文章中的模型建立打下了良好的基礎(chǔ)。
在DNA序列特征提取上將采用如下方法:DNA序列是由4種堿基所組成,一個(gè)長(zhǎng)度為蘊(yùn)的序列表示如下:
對(duì)該序列進(jìn)行統(tǒng)計(jì)分析可得到堿基成分(nucleotides composition,NC)以及K聯(lián)體成分(K-NC),這些成分可作為序列特征以反映序列中各種堿基的分布情況,但是僅僅用這些成分來(lái)表達(dá)序列會(huì)造成序列的順序信息和物理化學(xué)特性的丟失,由此引入了偽堿基成分(PseNC)的概念,偽堿基成分的引入已經(jīng)被證明可以顯著提高DNA序列屬性的預(yù)測(cè)效果。在提取堿基成分時(shí),首先根據(jù)堿基的物理化學(xué)屬性指標(biāo)對(duì)DNA序列作數(shù)字編碼,假設(shè)Hi(i=1,2,3,4)為4種堿基的某種物理化學(xué)屬性值(attribute value),據(jù)此將DNA序列的每個(gè)堿基殘基一一對(duì)應(yīng)地轉(zhuǎn)化成數(shù)值,表示為[H(R1),H(R2),…,H(R蘊(yùn))],對(duì)該數(shù)字信號(hào)流可以做傅里葉分析和小波分析,以獲取在不同層面和不同尺度下的物理化學(xué)信息。經(jīng)過(guò)以上步驟,DNA序列就可以被表達(dá)為高維特征空間里的一個(gè)點(diǎn),或者說(shuō)向量:
本研究還嘗試提出一種新的特征提取方法,即構(gòu)造堿基序列物理化學(xué)屬性矩陣(PCM)。采用10種生物物理化學(xué)實(shí)驗(yàn)中已測(cè)知的堿基物理化學(xué)屬性,如水解性、酸堿性、分子重量、分子體積等,將不同尺度下的物理化學(xué)屬性值做標(biāo)準(zhǔn)化:
再根據(jù)標(biāo)準(zhǔn)化后的物理化學(xué)屬性對(duì)堿基序列編碼成如下形式:
從矩陣(圖像)中提取的描述子可以反映序列的多種物理化學(xué)信息,如采用統(tǒng)計(jì)學(xué)里的自相關(guān)與互相關(guān)協(xié)方差算法:
通過(guò)上述的特征提取步驟,任意一條DNA序列都可以映射到高維特征空間中的一個(gè)點(diǎn),即一個(gè)高維特征向量。但是,這些特征中可能有很多特征與要解決的分類(lèi)問(wèn)題關(guān)系并不密切,他們?cè)诤罄m(xù)的分類(lèi)器設(shè)計(jì)中可能會(huì)影響分類(lèi)器的性能。另一方面,有時(shí)即使很多特征都與分類(lèi)關(guān)系密切,但是特征過(guò)多會(huì)帶來(lái)計(jì)算量大、推廣能力差等問(wèn)題。這時(shí)就需要進(jìn)行特征選擇以降低特征空間維數(shù)。由于選擇的空間很大且對(duì)特征間的關(guān)系缺乏認(rèn)識(shí),因此嘗試使用遺傳算法進(jìn)行特征選擇。遺傳算法雖然不能保證收斂到全局最優(yōu)解,但是在多數(shù)情況下至少得到很好的次優(yōu)解。
科技改變生活,創(chuàng)新推動(dòng)發(fā)展?;谥С窒蛄繖C(jī)的枯草桿菌啟動(dòng)子預(yù)測(cè)技術(shù)的研發(fā)對(duì)于推動(dòng)基因工程開(kāi)展,完善生物技術(shù)發(fā)展都有著十分積極的意義??梢哉f(shuō),結(jié)合支持向量機(jī)在高維識(shí)別中表現(xiàn)出來(lái)的獨(dú)有優(yōu)勢(shì),并且充分利用了啟動(dòng)子序列區(qū)域的全局組成特征、局部信號(hào)特征以及結(jié)構(gòu)特征,開(kāi)發(fā)出一種面向枯草桿菌的啟動(dòng)子分類(lèi)預(yù)測(cè)器,通過(guò)文章的論證,證明其確有一定的社會(huì)價(jià)值和實(shí)現(xiàn)的可能。
[1] 杜耀華,倪青山,王正志.基于支持向量機(jī)的枯草桿菌啟動(dòng)子預(yù)測(cè)方法[J].生命科學(xué)研究,2005,(12):319-326.
[2] 匡琳.支持向量機(jī)在文本分類(lèi)中的應(yīng)用的概述[J].科技資訊,2008,(36).
[3] 孫吉貴,韓霄松,盧欣華,等.真核生物啟動(dòng)子的預(yù)測(cè)技術(shù)[J].計(jì)算機(jī)科學(xué),2009,(1):5-7.
[4] 劉開(kāi)泉.利用原核系統(tǒng)表達(dá)富含二硫鍵蛋白質(zhì)的探索與改進(jìn)[D].泰安:山東農(nóng)業(yè)大學(xué),2011.
[5] 孫吉貴,韓霄松,盧欣華,等.真核生物啟動(dòng)子的預(yù)測(cè)技術(shù)[J].計(jì)算機(jī)科學(xué),2009,(1):5-7.