馬青原
【摘 要】人類社會(huì)進(jìn)入到新時(shí)期,各學(xué)科、各領(lǐng)域之間相互交叉和交融,衍生出了很多新學(xué)科。其中生物信息學(xué)作為一門新興學(xué)科,是生物學(xué)與信息技術(shù)學(xué)科交叉產(chǎn)生的新學(xué)科,主要是分析和研究生物信息的學(xué)科。生物學(xué)科自身具有復(fù)雜性特點(diǎn),為了能夠更好地實(shí)現(xiàn)對(duì)生物信息學(xué)的研究,我們積極引進(jìn)數(shù)據(jù)挖掘技術(shù),能夠有效收集和處理信息的同時(shí),還能夠?qū)⒀芯砍晒麘?yīng)用到實(shí)踐當(dāng)中。本文將從數(shù)據(jù)挖掘技術(shù)概念入手,分析并了解生物信息學(xué),最后探討技術(shù)在生物信息學(xué)中的應(yīng)用。
【關(guān)鍵詞】數(shù)據(jù)挖掘技術(shù) 生物信息學(xué) 應(yīng)用
信息時(shí)代背景下,計(jì)算機(jī)、信息技術(shù)在醫(yī)學(xué)領(lǐng)域得到了廣泛推廣和普及,在提高醫(yī)學(xué)水平的同時(shí),為生物學(xué)、信息學(xué)等學(xué)科之間的融合創(chuàng)造了契機(jī),并形成了生物信息學(xué)學(xué)科。醫(yī)學(xué)信息化建設(shè)促使醫(yī)學(xué)數(shù)據(jù)呈現(xiàn)幾何級(jí)數(shù)增長,具有非常明顯的大數(shù)據(jù)等特點(diǎn)。任何事物都有屬于自身的獨(dú)特發(fā)展規(guī)律,為了能夠更好地挖掘其中的規(guī)律,我們需要引進(jìn)數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)作為一項(xiàng)新型技術(shù),以其自身強(qiáng)大的存儲(chǔ)能力、分析能力,為生物信息學(xué)健康發(fā)展提供了一定支持和幫助。因此加強(qiáng)對(duì)該課題的研究具有非常重要的現(xiàn)實(shí)意義。
1 數(shù)據(jù)挖掘技術(shù)概念
所謂數(shù)據(jù)挖掘技術(shù),主要是指數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)的一個(gè)環(huán)節(jié),建立在計(jì)算機(jī)基礎(chǔ)之上,從大量數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程,具體是由統(tǒng)計(jì)、在線分析處理、情報(bào)檢索等方法構(gòu)成[1]。當(dāng)今社會(huì)中,信息資源逐漸成為企業(yè)發(fā)展核心資源,能夠?yàn)槠髽I(yè)帶來更多發(fā)展契機(jī),因此數(shù)據(jù)挖掘技術(shù)在社會(huì)各領(lǐng)域中的應(yīng)用范圍較廣,圖1為數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)。
該項(xiàng)技術(shù)最早起源于上個(gè)世紀(jì)九十年代后期,是一門跨學(xué)科綜合研究領(lǐng)域,涉及數(shù)據(jù)庫系統(tǒng)、統(tǒng)計(jì)學(xué)等多項(xiàng)內(nèi)容。該項(xiàng)技術(shù)出現(xiàn)的終極目標(biāo)是為了從數(shù)據(jù)當(dāng)中發(fā)現(xiàn)規(guī)律,預(yù)測(cè)事件未來發(fā)展趨勢(shì),為決策者提供科學(xué)依據(jù)。
2 生物信息學(xué)概述
上個(gè)世紀(jì)八十年代,生物學(xué)隨著人類基因組計(jì)劃興起,比數(shù)據(jù)挖掘技術(shù)發(fā)展較早。生物信息學(xué)提出的終極目標(biāo)是揭示基因組信息結(jié)構(gòu)特點(diǎn)、遺傳語言規(guī)律等,以此來充分掌握人類基因變化情況,認(rèn)識(shí)人類自身,從中挖掘出更多具有研究?jī)r(jià)值的知識(shí)與內(nèi)容。生物信息學(xué)的出現(xiàn),在很大程度上豐富和發(fā)展當(dāng)前物理學(xué)、生物學(xué)及化學(xué)等多個(gè)學(xué)科,為學(xué)科群持續(xù)發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ),成為學(xué)科群中最具活力和影響力的新學(xué)科[2]。
相比較其他學(xué)科,生物信息學(xué)起步較晚,正處于發(fā)展階段,但很多學(xué)者都被學(xué)科奧秘所吸引,并鉆研其中。在未來,生物信息學(xué)將成為電子信息技術(shù)之后的又一個(gè)科技革命,且會(huì)創(chuàng)造巨大的社會(huì)與經(jīng)濟(jì)效益?,F(xiàn)階段,國內(nèi)外出現(xiàn)了將生物信息學(xué)作為基礎(chǔ)的企業(yè),并開展了對(duì)基因工程藥學(xué)、生物芯片等方面的研究。就本質(zhì)上來說,生物信息學(xué)研究主要是對(duì)知識(shí)發(fā)現(xiàn)、數(shù)據(jù)挖掘的過程,現(xiàn)有研究成果已經(jīng)應(yīng)用到實(shí)踐當(dāng)中,并取得了不錯(cuò)的成效。
3 數(shù)據(jù)挖掘技術(shù)在生物信息學(xué)中的應(yīng)用
生物信息分布范圍較廣,除了基本DNA序列外,還存在蛋白質(zhì)以及結(jié)構(gòu)等內(nèi)容,其中將cDNA序列作為基礎(chǔ)的數(shù)據(jù)庫記錄能夠達(dá)到上萬條,大量數(shù)據(jù)共同構(gòu)成了生物學(xué)數(shù)據(jù)海洋。面對(duì)大量數(shù)據(jù)信息,我們能夠明確的是其中存在很多有價(jià)值的內(nèi)容,但是如何更好地挖掘和提煉出來,成為需要解決的難點(diǎn)。因此將數(shù)據(jù)挖掘技術(shù)應(yīng)用于生物信息學(xué)當(dāng)中非常必要。筆者結(jié)合自身實(shí)踐經(jīng)驗(yàn),認(rèn)為可以從以下幾個(gè)方面入手:
3.1 蛋白質(zhì)序列數(shù)據(jù)庫
蛋白質(zhì)結(jié)構(gòu)直接決定其自身生物功能。因此在研究蛋白質(zhì)過程中,我們需要充分了解蛋白質(zhì)的空間結(jié)構(gòu)。實(shí)際研究中,蛋白質(zhì)結(jié)構(gòu)測(cè)定方法較少,且成熟度偏低,無法滿足實(shí)際研究要求。核酸霉變性及重折疊實(shí)驗(yàn),能夠從蛋白質(zhì)的氨基酸序列當(dāng)中預(yù)測(cè)出蛋白質(zhì)的三維空間結(jié)構(gòu),為實(shí)踐提供強(qiáng)大的支持。蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)主要針對(duì)二級(jí)結(jié)構(gòu)進(jìn)行預(yù)測(cè)。實(shí)踐表明,不同的氨基酸殘基在不同的環(huán)境當(dāng)中能夠形成對(duì)應(yīng)的二級(jí)結(jié)構(gòu)傾向性,所以對(duì)于二級(jí)結(jié)構(gòu)的預(yù)測(cè)具有模式識(shí)別問題。為了能夠提高研究有效性,可以選擇立體化學(xué)、圖論及統(tǒng)計(jì)等方法。
就理論層面而言,蛋白質(zhì)一級(jí)結(jié)構(gòu)是其折疊后的基礎(chǔ),能夠從氨基酸序列當(dāng)中獲得自然折疊的蛋白質(zhì)結(jié)構(gòu)。但是蛋白質(zhì)自身具有多膚鏈特點(diǎn),將會(huì)促使構(gòu)象是一個(gè)天文數(shù)字,現(xiàn)有計(jì)算能力遠(yuǎn)遠(yuǎn)不能夠滿足構(gòu)象構(gòu)建的構(gòu)建。因此需要采取一定的啟發(fā)式方法,找到接近構(gòu)象的方法[3]。具體來說,可以采取從頭預(yù)測(cè)的方法,構(gòu)建同源模型,并在此基礎(chǔ)上判斷亞細(xì)胞定位、信號(hào)膚剪切位點(diǎn)等。
3.2 基因序列數(shù)據(jù)庫
基因組不僅僅是簡(jiǎn)單的基因排列,其還具有獨(dú)特的組織、信息結(jié)構(gòu),結(jié)構(gòu)在長期發(fā)展過程中勢(shì)必會(huì)形成這種特性,究其根本,是受到基因功能自身的影響。對(duì)此,我們可以利用EST數(shù)據(jù),從基因序列當(dāng)中挖掘出新基因,并分析和預(yù)測(cè)各種功能位點(diǎn),其中研究基因調(diào)整和控制網(wǎng)絡(luò)成為近年來的主要發(fā)展方向。具體來說,主要體現(xiàn)在兩個(gè)方面:一是從頭算方法;二是同源列比較方法。前者主要根據(jù)蛋白質(zhì)編碼基因的性質(zhì)及特點(diǎn)進(jìn)行識(shí)別,通過統(tǒng)值區(qū)別外顯子、內(nèi)含子等之間的關(guān)系;而后者主要是借助數(shù)據(jù)庫當(dāng)中現(xiàn)存的基因信息進(jìn)行對(duì)比,找到其中沒有的新基因。
針對(duì)新DNA序列而言,我們主要找到與現(xiàn)有蛋白質(zhì)相似的區(qū)域,并將新編碼提煉出來。針對(duì)此,我們選擇最理想的方法就是合并兩類方法的優(yōu)點(diǎn),形成一種新型的混合算法,以此來提高研究有效性。在DNA序列當(dāng)中,除了基本的基因,還存在很多其他信息,信息與核算結(jié)構(gòu)特點(diǎn)存在一定的相似之處,也是DNA與蛋白質(zhì)之間的關(guān)系的具體表現(xiàn),將此作為基礎(chǔ),能夠?qū)崿F(xiàn)對(duì)DNA序列的分析,并從中發(fā)現(xiàn)新事物、新規(guī)律,新特點(diǎn),推進(jìn)生物信息學(xué)持續(xù)發(fā)展。
3.3 生物序列數(shù)據(jù)庫
比較作為生物信息學(xué)研究的一種方式和方法,其中序列比較作為一項(xiàng)基礎(chǔ)性操作方法,通過序列比較,能夠發(fā)現(xiàn)生物序列當(dāng)中的功能、結(jié)構(gòu)及進(jìn)化信息等。通常來說,在生物信息學(xué)領(lǐng)域,序列即結(jié)構(gòu),而結(jié)構(gòu)直接決定功能。因此在實(shí)踐中,我們通過對(duì)生物序列進(jìn)行比較和分析,能夠發(fā)現(xiàn)它們的相似性與不同處。研究序列相似性的根本目標(biāo)在于結(jié)合相似的序列找到相似的結(jié)構(gòu)與功能[4]。基于生物自身特殊性的影響,在研究中,我們?nèi)匀荒軌虬l(fā)現(xiàn)完全不同的序列,但卻具有同樣的功能,而這一發(fā)現(xiàn),能夠?yàn)槲覀兊男蛄醒芯刻峁└嘀С趾蛶椭?,促進(jìn)序列研究進(jìn)一步發(fā)展。
在實(shí)際操作中,我們借助數(shù)據(jù)挖掘技術(shù),主要將兩個(gè)序列的字符排列出來,找到序列之間的相似與不同處,同時(shí)將打分矩陣作為序列比較的基礎(chǔ),堅(jiān)持具體問題具體分析原則,找到針對(duì)性打分矩陣后,對(duì)結(jié)果進(jìn)行分析和對(duì)比。如針對(duì)核算序列打分舉證來說,可以由BLAST、轉(zhuǎn)換—顛換等矩陣;而針對(duì)蛋白質(zhì)的矩陣而言,可以有遺傳密碼、PAM及BLOSUM等矩陣。在矩陣中進(jìn)行序列對(duì)比研究,不僅能夠提高研究有效性,還能夠降低數(shù)據(jù)研究難度,從而為生物信息學(xué)研究提供更大的支持和幫助。
3.4 結(jié)構(gòu)數(shù)據(jù)庫
結(jié)構(gòu)數(shù)據(jù)庫涉及范圍較廣,如蛋白質(zhì)、核算及小分子等,筆者主要針對(duì)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫進(jìn)行分析。PDB作為全世界范圍內(nèi)認(rèn)可的唯一一個(gè)生物大分子結(jié)構(gòu)數(shù)據(jù)庫,最早建立在美國。針對(duì)PDB數(shù)據(jù)收集來說,主要來源于X光晶體衍射等方面,后經(jīng)過整理后存檔形成的數(shù)據(jù)庫[5]。
在數(shù)據(jù)庫當(dāng)中,包含著非常詳細(xì)的蛋白質(zhì)結(jié)構(gòu)情況,且由RCSB負(fù)責(zé)。我們?cè)跀?shù)據(jù)庫中能夠提煉出原子坐標(biāo)數(shù)據(jù),并通過Chime等瀏覽器實(shí)現(xiàn)對(duì)三維圖像的觀察和分析,為具體研究工作奠定堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
3.5 基因數(shù)據(jù)表達(dá)
現(xiàn)階段,基因數(shù)據(jù)表達(dá)作為生物信息學(xué)研究的新熱點(diǎn),受到了眾多學(xué)者的關(guān)注。基因數(shù)據(jù)表達(dá)主要是為了更加直觀、客觀表達(dá)基因。目前,針對(duì)基因數(shù)據(jù)表達(dá)的處理主要采取聚類分析方法,將基因聚作為劃分主要依據(jù),并在此基礎(chǔ)上尋找到有關(guān)基因,分析基因的基本功能[6]。結(jié)合當(dāng)前數(shù)據(jù)挖掘技術(shù)來看,主要采取相關(guān)分析法、層次聚類方法等多種方法,如果進(jìn)一步研究還能夠探索基因中的調(diào)節(jié)網(wǎng)絡(luò)等,明確在不同環(huán)境當(dāng)中,基因的變化形態(tài)有哪些。
在實(shí)踐中,我們借助基因數(shù)據(jù)表達(dá),能夠結(jié)合聚類分析研究基因的啟動(dòng)子、分析表達(dá)模式相同的一類基因啟動(dòng)子組成特點(diǎn)。通過多重列比對(duì)的方式,將各個(gè)基因序列作為研究對(duì)象進(jìn)行針對(duì)性研究。不可否認(rèn)的是聚類方法是基因表數(shù)據(jù)分析的基礎(chǔ),但是該方面僅能夠發(fā)現(xiàn)基因的表面、簡(jiǎn)單的特點(diǎn),尚不能夠挖掘基因之間的深層次關(guān)系,還有待進(jìn)一步改進(jìn)和完善[7]。近年來,隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)也隨之發(fā)展,新技術(shù)的應(yīng)用被應(yīng)用到陣列表達(dá)數(shù)據(jù)處理工作當(dāng)中,如支持向量機(jī)方法,最早出現(xiàn)在上個(gè)世紀(jì)九十年代末,主要是為了解決小樣本、非線性等問題的方法,能夠充分考慮各方面因素后構(gòu)建良好的模型,實(shí)現(xiàn)對(duì)數(shù)據(jù)的有效分析,并進(jìn)行回歸性分析,在實(shí)際應(yīng)用中得到了廣泛推廣和普及。
3.6 可視化工具的應(yīng)用
眾所周知,基因自身結(jié)構(gòu)具有復(fù)雜性特點(diǎn),且序列模式一般難以在腦海中構(gòu)建立體圖形,對(duì)可視化工具提出了更高要求。因此在實(shí)踐中,我們可以將圖、樹及方體等多種可視化工具應(yīng)用其中,促進(jìn)對(duì)模式的理解和掌握。目前,知識(shí)發(fā)現(xiàn)、數(shù)據(jù)交互是較為常見的工具[8]。如針對(duì)大規(guī)模基因表達(dá)數(shù)據(jù)的挖掘,已經(jīng)能夠達(dá)到利用簡(jiǎn)單的圖形顯示出聚類結(jié)果,將原始數(shù)據(jù)通過可視化途徑展示出來,能夠?yàn)榛虮磉_(dá)分析提供更好地支持,從不同的角度觀察基因組的變化情況。可見,可視化在生物信息學(xué)數(shù)據(jù)挖掘中占據(jù)非常重要的位置,值得我們給予更多關(guān)注,并加強(qiáng)對(duì)數(shù)據(jù)挖掘技術(shù)的實(shí)踐應(yīng)用。
4 結(jié)語
根據(jù)上文所述,生物信息學(xué)作為一項(xiàng)綜合性、系統(tǒng)性學(xué)科,是計(jì)算機(jī)技術(shù)與生物技術(shù)結(jié)合的產(chǎn)物。在具體實(shí)踐中,我們能夠?yàn)榱诉M(jìn)一步挖掘其中的規(guī)律與特點(diǎn),應(yīng)充分利用數(shù)據(jù)庫資源,并將自身已有的檢索系統(tǒng),實(shí)現(xiàn)對(duì)生物數(shù)據(jù)信息的探索。隨著科學(xué)技術(shù)不斷發(fā)展,生物信息學(xué)的研究也會(huì)朝著深層次發(fā)展。龐大的生物信息對(duì)于數(shù)據(jù)挖掘技術(shù)提出了巨大的挑戰(zhàn),且?guī)砹烁喟l(fā)展機(jī)遇?;诖耍覀冞€應(yīng)加大對(duì)數(shù)據(jù)挖掘技術(shù)的研究,創(chuàng)新更多新技術(shù),加大對(duì)生物信息的深度研究,從而促進(jìn)生物信息學(xué)科的積極作用得到最大限度發(fā)揮,造福人類。
參考文獻(xiàn):
[1]潘偉.數(shù)據(jù)倉庫技術(shù)在生物信息學(xué)中的應(yīng)用研究[J].成都信息工程學(xué)院學(xué)報(bào),2010(02):142-145.
[2]張敏輝,高曉玲.計(jì)算機(jī)技術(shù)在生物信息學(xué)中的應(yīng)用研究[J].中國西部科技,2010(32):93-94.
[3]張贊,劉金定,黃水清,李飛.生物信息學(xué)在昆蟲學(xué)研究中的應(yīng)用[J].應(yīng)用昆蟲學(xué)報(bào),2012(01):1-11.
[4]謝騰,王升,馬炯,郭蘭萍.生物信息學(xué)在中藥資源研究中的應(yīng)用[J].中國中藥雜志,2012(24):3684-3690.
[5]王洪昌,丁立軍,黃宇.生物信息學(xué)中模式識(shí)別技術(shù)應(yīng)用與發(fā)展[J].醫(yī)學(xué)信息學(xué)雜志,2013(11):7-10.
[6]魏子艷,金德才,鄧曄.環(huán)境微生物宏基因組學(xué)研究中的生物信息學(xué)方法[J].微生物學(xué)通報(bào),2015(05):890-901.
[7]王可鑒,石樂明,賀林,張永祥,楊侖.中國藥物研發(fā)的新機(jī)遇:基于醫(yī)藥大數(shù)據(jù)的系統(tǒng)性藥物重定位[J].科學(xué)通報(bào),2014(18):1790-1796.
[8]胡瑞峰,邢小燕,孫桂波,孫曉波.大數(shù)據(jù)時(shí)代下生物信息技術(shù)在生物醫(yī)藥領(lǐng)域的應(yīng)用前景[J].藥學(xué)學(xué)報(bào),2014(11):1512-1519.