• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)研究進(jìn)展

      2014-09-02 09:56鄭珊珊石卓興代琦姚玉華
      科技視界 2014年12期

      鄭珊珊+石卓興+代琦+姚玉華

      【摘 要】蛋白質(zhì)的功能與其亞細(xì)胞位置有著密切的聯(lián)系,對(duì)于確定一個(gè)未知特性蛋白質(zhì)的功能,亞細(xì)胞定位研究能夠提供重要的參考信息。采用傳統(tǒng)實(shí)驗(yàn)的方法研究亞細(xì)胞定位需要耗費(fèi)大量的人力、財(cái)力、物力,已經(jīng)不能滿足數(shù)據(jù)庫(kù)中蛋白質(zhì)序列爆炸性增長(zhǎng)的現(xiàn)實(shí)需要。從已積累的知識(shí)和數(shù)據(jù)出發(fā),利用智能算法、機(jī)器學(xué)習(xí)等工具開(kāi)發(fā)蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的方法成為了當(dāng)前的重要研究?jī)?nèi)容。本文對(duì)國(guó)內(nèi)外亞細(xì)胞定位預(yù)測(cè)的研究現(xiàn)狀進(jìn)行了綜述。

      【關(guān)鍵詞】亞細(xì)胞定位;特征信息提取;預(yù)測(cè)算法

      亞細(xì)胞定位是指某種蛋白或某種基因表達(dá)產(chǎn)物在細(xì)胞內(nèi)的具體存在部位,即根據(jù)所給出的蛋白質(zhì)序列來(lái)預(yù)測(cè)其所在的亞細(xì)胞位置。蛋白質(zhì)是基因功能的執(zhí)行者,機(jī)體中的每一個(gè)細(xì)胞和所有重要組成部分都有它的參與,正是由于它是與生命及與各種形式的生命活動(dòng)緊密聯(lián)系在一起的物質(zhì),越來(lái)越多的生物學(xué)、生物信息學(xué)研究者開(kāi)始對(duì)蛋白質(zhì)的功能預(yù)測(cè)及分析進(jìn)行了研究。然而,蛋白質(zhì)只有經(jīng)分選信號(hào)引導(dǎo)后運(yùn)輸?shù)教囟ǖ募?xì)胞器中,才能參與細(xì)胞的各種生命活動(dòng),執(zhí)行它的功能,如果其運(yùn)送位置發(fā)生偏差,將會(huì)影響細(xì)胞功能甚至整個(gè)生物體。因此,蛋白質(zhì)在細(xì)胞中的正確定位是細(xì)胞系統(tǒng)高度有序運(yùn)轉(zhuǎn)的前提保障。研究細(xì)胞中蛋白質(zhì)定位的機(jī)制和規(guī)律,預(yù)測(cè)蛋白質(zhì)的亞細(xì)胞定位,對(duì)于了解蛋白質(zhì)結(jié)構(gòu)、性質(zhì)和功能,了解蛋白質(zhì)之間的相互作用,研究疾病機(jī)理和發(fā)展新藥物以及探索生命的規(guī)律和奧秘具有重要意義。

      隨著核酸和蛋白質(zhì)序列等生物數(shù)據(jù)的高速膨脹,單純以傳統(tǒng)實(shí)驗(yàn)方法來(lái)確定蛋白質(zhì)亞細(xì)胞定位具有成本高、實(shí)驗(yàn)時(shí)間長(zhǎng),預(yù)測(cè)精度不理想,會(huì)耗費(fèi)大量的人力和物力等缺點(diǎn),已經(jīng)無(wú)法滿足生命科學(xué)研究的需要。因此,需要尋找一種快速、有效、準(zhǔn)確的計(jì)算方法來(lái)預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位。近年來(lái),生物信息學(xué)在這方面開(kāi)展了廣泛的研究并且取得一系列很有意義的成果,數(shù)據(jù)庫(kù)的構(gòu)建和亞細(xì)胞定位分析及預(yù)測(cè)加速了蛋白質(zhì)結(jié)構(gòu)和功能的研究。一方面,生物信息學(xué)研究可以對(duì)大規(guī)模的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析和提取生物學(xué)信息,同時(shí)可以根據(jù)現(xiàn)有數(shù)據(jù)對(duì)一些目前還未知的蛋白質(zhì)做出預(yù)測(cè);另一方面,不斷增長(zhǎng)的亞細(xì)胞定位數(shù)據(jù)也可以用來(lái)驗(yàn)證并改進(jìn)預(yù)測(cè)結(jié)果。目前,利用生物信息學(xué)方法進(jìn)行蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)已經(jīng)成為了一個(gè)研究熱點(diǎn)。

      從20世紀(jì)90年代初至今,蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)一直是生物信息學(xué)研究的熱點(diǎn)問(wèn)題之一。通過(guò)分析國(guó)內(nèi)外研究者的研究方法,不難發(fā)現(xiàn)這些方法的主要不同在于兩個(gè)方面: 第一,蛋白質(zhì)特征信息的提取,主要是指將蛋白質(zhì)相關(guān)特征信息提取出之后轉(zhuǎn)化成高維的特征向量,作為預(yù)測(cè)的輸入。蛋白質(zhì)序列特征信息主要包括氨基酸順序相關(guān)性、氨基酸在蛋白質(zhì)中出現(xiàn)的頻率、氨基酸物理化學(xué)性質(zhì)等。第二,預(yù)測(cè)算法的設(shè)計(jì),根據(jù)提取的特征向量集,利用有效的算法預(yù)測(cè)蛋白質(zhì)的亞細(xì)胞定位。算法影響亞細(xì)胞預(yù)測(cè)精度的重要因素,現(xiàn)有預(yù)測(cè)算法中,統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法使用的最為廣泛。

      利用計(jì)算方法來(lái)預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位屬于統(tǒng)計(jì)模式識(shí)別中的模式多分類問(wèn)題。問(wèn)題的研究一般包括以下四個(gè)步驟:(1)具有客觀代表性的蛋白質(zhì)數(shù)據(jù)集的構(gòu)建; (2)蛋白質(zhì)序列的特征提取,即蛋白質(zhì)序列編碼,從蛋白質(zhì)中提取特征參數(shù),實(shí)現(xiàn)字母序列到數(shù)值特征的轉(zhuǎn)換;(3)預(yù)測(cè)算法的選取,即如何根據(jù)提取的特征參數(shù),設(shè)計(jì)有效的分類或識(shí)別模型類;(4)對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,即預(yù)測(cè)模型的測(cè)試與檢驗(yàn)以及結(jié)果性能的評(píng)估。

      1 數(shù)據(jù)集的構(gòu)建

      研究蛋白質(zhì)亞細(xì)胞定位的數(shù)據(jù)集基本來(lái)自SWISS-PROT數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)建于1986年,是目前世界上存儲(chǔ)蛋白質(zhì)序列最主要的一級(jí)數(shù)據(jù)庫(kù)之一。利用這個(gè)數(shù)據(jù)庫(kù)研究蛋白質(zhì)的亞細(xì)胞定位時(shí),需要對(duì)其中的數(shù)據(jù)進(jìn)行篩選。通常的篩選標(biāo)準(zhǔn)有:(1)針對(duì)研究對(duì)象,挑選特定物種的相關(guān)蛋白質(zhì)序列;(2)在構(gòu)建數(shù)據(jù)集時(shí),需要知道每個(gè)蛋白質(zhì)序列所在的亞細(xì)胞位置,所以只有包含明確的亞細(xì)胞定位信息的序列才被選入數(shù)據(jù)集中;(3)序列長(zhǎng)度不能太短;(4)數(shù)據(jù)冗余度,要求同源性低;(5)排除樣本量太少的亞細(xì)胞類別。

      除了利用SWISS-PROT數(shù)據(jù)庫(kù)外,還有LOCATE、TargetP家族數(shù)據(jù)集等。近年來(lái),隨著研究的不斷深入,蛋白質(zhì)序列數(shù)據(jù)集越來(lái)越復(fù)雜,目前最復(fù)雜的數(shù)據(jù)集是酵母蛋白質(zhì)序列數(shù)據(jù)集,包含22種亞細(xì)胞蛋白質(zhì)。

      2 蛋白質(zhì)特征信息的提取

      蛋白質(zhì)序列特征提取的目的是,從蛋白質(zhì)序列中提取特征信息,并用適當(dāng)?shù)臄?shù)學(xué)方法來(lái)描述或表示這些信息,使之能正確反映序列與結(jié)構(gòu)或功能之間的關(guān)系,這于蛋白質(zhì)亞細(xì)胞定位是至關(guān)重要的,也是研究蛋白質(zhì)功能結(jié)構(gòu)的關(guān)鍵。根據(jù)提取特征信息的不同,可以歸納為3類。

      2.1 基于氨基酸的組成和性質(zhì)

      氨基酸組成是一種最基本的序列特征,也是亞細(xì)胞定位預(yù)測(cè)中使用得最為普遍的一種蛋白質(zhì)特征信息。蛋白質(zhì)一般有20 種氨基酸組成,氨基酸組成將每種氨基酸在蛋白質(zhì)序列中出現(xiàn)的頻率抽取出來(lái)作為一個(gè)20維的向量。1994年,Nakashima和 Nishikawa最早通過(guò)利用氨基酸組成進(jìn)行了蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè),對(duì)細(xì)胞內(nèi)和細(xì)胞外蛋白質(zhì)定位分別取得了88%和 84%的預(yù)測(cè)準(zhǔn)確率。

      2.2 基于蛋白質(zhì)序列的N端分選信號(hào)的方法

      一般認(rèn)為蛋白質(zhì)在合成的過(guò)程中,其N端包含一些特殊的分選信號(hào),這些信號(hào)能夠指導(dǎo)新合成的蛋白質(zhì)分選到特定的亞細(xì)胞中,包括信號(hào)肽、線粒體轉(zhuǎn)移肽、葉綠體運(yùn)輸肽、核定位信號(hào)、類囊體腔轉(zhuǎn)移肽和過(guò)氧化物酶體定位信號(hào)等。這種信息的有效性取決于蛋白質(zhì)序列完整性,一旦蛋白質(zhì)序列的N端信號(hào)不完整或者丟失,預(yù)測(cè)結(jié)果就可能失效。

      2.3 基于功能域和基因注釋的方法

      蛋白質(zhì)序列在長(zhǎng)期的進(jìn)化過(guò)程中,某些特定位點(diǎn)上的氨基酸殘基具有高度的保守性,這些位點(diǎn)稱為功能域。2002年功能域組分的概念首次被用于蛋白質(zhì)亞細(xì)胞定位,這種方法顯著提高了亞細(xì)胞定位的質(zhì)量。2006年,引入GO注釋來(lái)預(yù)測(cè)人類蛋白質(zhì)的亞細(xì)胞位置。但是,基于功能與和基因注釋的方法對(duì)于數(shù)據(jù)庫(kù)功能注釋信息的完善程度依賴性較大,如果數(shù)據(jù)庫(kù)中沒(méi)有足夠的功能域或基因注釋條目,那么將無(wú)法確定蛋白質(zhì)的亞細(xì)胞定位。

      由于不同的特征從不同的角度刻畫蛋白質(zhì)序列,目前沒(méi)有一種特征能夠很好地刻畫蛋白質(zhì)的亞細(xì)胞定位特征,單獨(dú)利用某種特征難以在預(yù)測(cè)效果上取得大的突破。將多種特征提取方法組合起來(lái)已經(jīng)成為亞細(xì)胞定位預(yù)測(cè)中最為普遍的一種方法。

      3 蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)算法

      蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)中另一個(gè)重要因素是識(shí)別算法,成功的分類算法應(yīng)該是能夠高效、正確的將不同亞細(xì)胞位置的蛋白質(zhì)分開(kāi)。在蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)方面,主要的算法包括5類:基于簡(jiǎn)單選擇判別規(guī)則的方法;基于距離度量的近鄰方法;基于人工神經(jīng)網(wǎng)絡(luò)的方法;基于馬爾可夫模型的方法;基于向量機(jī)的方法。常用預(yù)測(cè)方法有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī) 、最鄰近算法三種。

      (1)神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過(guò)調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)具有良好的魯棒性和容錯(cuò)性,因此,不僅在蛋白質(zhì)亞細(xì)胞定位領(lǐng)域受到青睞,在模式識(shí)別的其他領(lǐng)域也得到了廣泛的應(yīng)用。

      (2)支持向量機(jī)。支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論分類技術(shù),它在蛋白質(zhì)特征向量映射到的高維空間中,找到一個(gè)使(下轉(zhuǎn)第32頁(yè))(上接第12頁(yè))分類誤差最小的最優(yōu)分類面。由于支持向量機(jī)具有較好的推廣能力,許多學(xué)者選擇它作為蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的首選分類器。

      (3)基于距離的近鄰方法。基于距離的近鄰方法原理是根據(jù)某種距離度量方法來(lái)度量樣本之間的相似性,距離越近則兩樣本有可能出現(xiàn)在相同細(xì)胞器中。隨后的研究中,研究者將基于距離的近鄰方法做了推廣,如模糊K近鄰方法,加權(quán)模糊K近鄰方法等。基于距離的近鄰方法,不需要人為的選擇參數(shù),適合求解大規(guī)模問(wèn)題,運(yùn)算速度較快。

      隨著研究的不斷深入,將多種算法進(jìn)行融合,來(lái)預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位已經(jīng)逐漸成為研究的趨勢(shì)。2010年,趙禹等用離散增量結(jié)合支持向量機(jī)方法預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位。多種算法的融合,在提高蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的精度和加快算法運(yùn)行速度方面取得了良好的效果。

      4 預(yù)測(cè)算法的檢驗(yàn)和評(píng)估

      選用適當(dāng)?shù)念A(yù)測(cè)算法之后,需要對(duì)算法進(jìn)行評(píng)估,即檢驗(yàn)出算法的準(zhǔn)確率,它是評(píng)價(jià)一個(gè)分類算法性能好壞的重要指標(biāo),也是與其它分類預(yù)測(cè)算法比較的依據(jù)。預(yù)測(cè)算法的檢驗(yàn)方法主要有自身一致性檢驗(yàn)、獨(dú)立性檢驗(yàn)、留一法檢驗(yàn)三種[29]。

      留一交叉驗(yàn)證(1eave-one-outcross-validation,LOOCV)每次取出數(shù)據(jù)集中的一條蛋 白質(zhì)序列作為測(cè)試樣本,而剩余的蛋白質(zhì)序列作為訓(xùn)練集對(duì)測(cè)試樣本的亞細(xì)胞進(jìn)行定位預(yù)測(cè)。直到所有樣本序列都被測(cè)試一遍為止。LOOCV的缺點(diǎn)是計(jì)算成本高,費(fèi)時(shí),但是其結(jié)果更加嚴(yán)格可靠,已經(jīng)在很多方法中得到了應(yīng)用。

      評(píng)估預(yù)測(cè)算法常用的算法評(píng)價(jià)指標(biāo)有 :敏感性、特異性和 Matthew相關(guān)系數(shù)。敏感性指標(biāo)是指每類樣本中被正確識(shí)別的比例,反映了預(yù)測(cè)成功率;特異性指標(biāo)是指被判別為第i類的樣本中真正屬于第i類的比例,反映了預(yù)測(cè)的可信度。

      Sensitivity(i)=■×100%

      Spencificity(i)=■×100%

      Matthews相關(guān)系數(shù)MCC可以對(duì)算法的準(zhǔn)確率進(jìn)行評(píng)估。

      MCC(i)=■

      其中,tp(i)是第i類樣本中被預(yù)測(cè)正確的數(shù)目,fn(i)是第i類樣本被錯(cuò)誤的判別為其他類別的數(shù)目,fp(i)是非第i類樣本但被預(yù)測(cè)為第i類樣本的數(shù)目,tn(i)是非第i類樣本中被預(yù)測(cè)正確的樣本數(shù)目。MCC指標(biāo)取值0至1,取值越高說(shuō)明分類器的性能越好,當(dāng)MCC取1時(shí),所有樣本均被正確識(shí)別;當(dāng)MCC取0時(shí),分類器的判別效果與隨機(jī)指派的結(jié)果一樣,這樣的分類器是最差的。

      【參考文獻(xiàn)】

      [1]徐建華,朱家勇.生物信息學(xué)在蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測(cè)中的應(yīng)用[J].J Med Mol Biol, 2005,2(3):227-232.

      [2]張樹(shù)波,賴劍煌.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的機(jī)器學(xué)習(xí)方法[J].計(jì)算機(jī)科學(xué),2009,36( 4):29-33.

      [3]張麗.蛋白質(zhì)亞細(xì)胞定位的序列編碼及預(yù)測(cè)方法研究[D].湖南:湖南大學(xué)計(jì)算與通信學(xué)院,2010.

      [4]郭麗麗,陳月輝.基于機(jī)器學(xué)習(xí)的蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)[J].信息技術(shù)與信息化,2011,5:73-75.

      [5]吳文佳.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)方法研究[D].南京:南京航空航天大學(xué),2008.

      [6]趙禹,趙巨東,姚龍.用離散增量結(jié)合支持向量機(jī)方法預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位[J].生物信息學(xué),2010,8(3):241-244.

      [7]吳澤月,陳月輝.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)研究[J].山東師范大學(xué)學(xué)報(bào),2012,4(27):33-37.

      [責(zé)任編輯:謝慶云]

      由于不同的特征從不同的角度刻畫蛋白質(zhì)序列,目前沒(méi)有一種特征能夠很好地刻畫蛋白質(zhì)的亞細(xì)胞定位特征,單獨(dú)利用某種特征難以在預(yù)測(cè)效果上取得大的突破。將多種特征提取方法組合起來(lái)已經(jīng)成為亞細(xì)胞定位預(yù)測(cè)中最為普遍的一種方法。

      3 蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)算法

      蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)中另一個(gè)重要因素是識(shí)別算法,成功的分類算法應(yīng)該是能夠高效、正確的將不同亞細(xì)胞位置的蛋白質(zhì)分開(kāi)。在蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)方面,主要的算法包括5類:基于簡(jiǎn)單選擇判別規(guī)則的方法;基于距離度量的近鄰方法;基于人工神經(jīng)網(wǎng)絡(luò)的方法;基于馬爾可夫模型的方法;基于向量機(jī)的方法。常用預(yù)測(cè)方法有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī) 、最鄰近算法三種。

      (1)神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過(guò)調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)具有良好的魯棒性和容錯(cuò)性,因此,不僅在蛋白質(zhì)亞細(xì)胞定位領(lǐng)域受到青睞,在模式識(shí)別的其他領(lǐng)域也得到了廣泛的應(yīng)用。

      (2)支持向量機(jī)。支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論分類技術(shù),它在蛋白質(zhì)特征向量映射到的高維空間中,找到一個(gè)使(下轉(zhuǎn)第32頁(yè))(上接第12頁(yè))分類誤差最小的最優(yōu)分類面。由于支持向量機(jī)具有較好的推廣能力,許多學(xué)者選擇它作為蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的首選分類器。

      (3)基于距離的近鄰方法。基于距離的近鄰方法原理是根據(jù)某種距離度量方法來(lái)度量樣本之間的相似性,距離越近則兩樣本有可能出現(xiàn)在相同細(xì)胞器中。隨后的研究中,研究者將基于距離的近鄰方法做了推廣,如模糊K近鄰方法,加權(quán)模糊K近鄰方法等?;诰嚯x的近鄰方法,不需要人為的選擇參數(shù),適合求解大規(guī)模問(wèn)題,運(yùn)算速度較快。

      隨著研究的不斷深入,將多種算法進(jìn)行融合,來(lái)預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位已經(jīng)逐漸成為研究的趨勢(shì)。2010年,趙禹等用離散增量結(jié)合支持向量機(jī)方法預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位。多種算法的融合,在提高蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的精度和加快算法運(yùn)行速度方面取得了良好的效果。

      4 預(yù)測(cè)算法的檢驗(yàn)和評(píng)估

      選用適當(dāng)?shù)念A(yù)測(cè)算法之后,需要對(duì)算法進(jìn)行評(píng)估,即檢驗(yàn)出算法的準(zhǔn)確率,它是評(píng)價(jià)一個(gè)分類算法性能好壞的重要指標(biāo),也是與其它分類預(yù)測(cè)算法比較的依據(jù)。預(yù)測(cè)算法的檢驗(yàn)方法主要有自身一致性檢驗(yàn)、獨(dú)立性檢驗(yàn)、留一法檢驗(yàn)三種[29]。

      留一交叉驗(yàn)證(1eave-one-outcross-validation,LOOCV)每次取出數(shù)據(jù)集中的一條蛋 白質(zhì)序列作為測(cè)試樣本,而剩余的蛋白質(zhì)序列作為訓(xùn)練集對(duì)測(cè)試樣本的亞細(xì)胞進(jìn)行定位預(yù)測(cè)。直到所有樣本序列都被測(cè)試一遍為止。LOOCV的缺點(diǎn)是計(jì)算成本高,費(fèi)時(shí),但是其結(jié)果更加嚴(yán)格可靠,已經(jīng)在很多方法中得到了應(yīng)用。

      評(píng)估預(yù)測(cè)算法常用的算法評(píng)價(jià)指標(biāo)有 :敏感性、特異性和 Matthew相關(guān)系數(shù)。敏感性指標(biāo)是指每類樣本中被正確識(shí)別的比例,反映了預(yù)測(cè)成功率;特異性指標(biāo)是指被判別為第i類的樣本中真正屬于第i類的比例,反映了預(yù)測(cè)的可信度。

      Sensitivity(i)=■×100%

      Spencificity(i)=■×100%

      Matthews相關(guān)系數(shù)MCC可以對(duì)算法的準(zhǔn)確率進(jìn)行評(píng)估。

      MCC(i)=■

      其中,tp(i)是第i類樣本中被預(yù)測(cè)正確的數(shù)目,fn(i)是第i類樣本被錯(cuò)誤的判別為其他類別的數(shù)目,fp(i)是非第i類樣本但被預(yù)測(cè)為第i類樣本的數(shù)目,tn(i)是非第i類樣本中被預(yù)測(cè)正確的樣本數(shù)目。MCC指標(biāo)取值0至1,取值越高說(shuō)明分類器的性能越好,當(dāng)MCC取1時(shí),所有樣本均被正確識(shí)別;當(dāng)MCC取0時(shí),分類器的判別效果與隨機(jī)指派的結(jié)果一樣,這樣的分類器是最差的。

      【參考文獻(xiàn)】

      [1]徐建華,朱家勇.生物信息學(xué)在蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測(cè)中的應(yīng)用[J].J Med Mol Biol, 2005,2(3):227-232.

      [2]張樹(shù)波,賴劍煌.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的機(jī)器學(xué)習(xí)方法[J].計(jì)算機(jī)科學(xué),2009,36( 4):29-33.

      [3]張麗.蛋白質(zhì)亞細(xì)胞定位的序列編碼及預(yù)測(cè)方法研究[D].湖南:湖南大學(xué)計(jì)算與通信學(xué)院,2010.

      [4]郭麗麗,陳月輝.基于機(jī)器學(xué)習(xí)的蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)[J].信息技術(shù)與信息化,2011,5:73-75.

      [5]吳文佳.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)方法研究[D].南京:南京航空航天大學(xué),2008.

      [6]趙禹,趙巨東,姚龍.用離散增量結(jié)合支持向量機(jī)方法預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位[J].生物信息學(xué),2010,8(3):241-244.

      [7]吳澤月,陳月輝.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)研究[J].山東師范大學(xué)學(xué)報(bào),2012,4(27):33-37.

      [責(zé)任編輯:謝慶云]

      由于不同的特征從不同的角度刻畫蛋白質(zhì)序列,目前沒(méi)有一種特征能夠很好地刻畫蛋白質(zhì)的亞細(xì)胞定位特征,單獨(dú)利用某種特征難以在預(yù)測(cè)效果上取得大的突破。將多種特征提取方法組合起來(lái)已經(jīng)成為亞細(xì)胞定位預(yù)測(cè)中最為普遍的一種方法。

      3 蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)算法

      蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)中另一個(gè)重要因素是識(shí)別算法,成功的分類算法應(yīng)該是能夠高效、正確的將不同亞細(xì)胞位置的蛋白質(zhì)分開(kāi)。在蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)方面,主要的算法包括5類:基于簡(jiǎn)單選擇判別規(guī)則的方法;基于距離度量的近鄰方法;基于人工神經(jīng)網(wǎng)絡(luò)的方法;基于馬爾可夫模型的方法;基于向量機(jī)的方法。常用預(yù)測(cè)方法有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī) 、最鄰近算法三種。

      (1)神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過(guò)調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)具有良好的魯棒性和容錯(cuò)性,因此,不僅在蛋白質(zhì)亞細(xì)胞定位領(lǐng)域受到青睞,在模式識(shí)別的其他領(lǐng)域也得到了廣泛的應(yīng)用。

      (2)支持向量機(jī)。支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論分類技術(shù),它在蛋白質(zhì)特征向量映射到的高維空間中,找到一個(gè)使(下轉(zhuǎn)第32頁(yè))(上接第12頁(yè))分類誤差最小的最優(yōu)分類面。由于支持向量機(jī)具有較好的推廣能力,許多學(xué)者選擇它作為蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的首選分類器。

      (3)基于距離的近鄰方法?;诰嚯x的近鄰方法原理是根據(jù)某種距離度量方法來(lái)度量樣本之間的相似性,距離越近則兩樣本有可能出現(xiàn)在相同細(xì)胞器中。隨后的研究中,研究者將基于距離的近鄰方法做了推廣,如模糊K近鄰方法,加權(quán)模糊K近鄰方法等?;诰嚯x的近鄰方法,不需要人為的選擇參數(shù),適合求解大規(guī)模問(wèn)題,運(yùn)算速度較快。

      隨著研究的不斷深入,將多種算法進(jìn)行融合,來(lái)預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位已經(jīng)逐漸成為研究的趨勢(shì)。2010年,趙禹等用離散增量結(jié)合支持向量機(jī)方法預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位。多種算法的融合,在提高蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的精度和加快算法運(yùn)行速度方面取得了良好的效果。

      4 預(yù)測(cè)算法的檢驗(yàn)和評(píng)估

      選用適當(dāng)?shù)念A(yù)測(cè)算法之后,需要對(duì)算法進(jìn)行評(píng)估,即檢驗(yàn)出算法的準(zhǔn)確率,它是評(píng)價(jià)一個(gè)分類算法性能好壞的重要指標(biāo),也是與其它分類預(yù)測(cè)算法比較的依據(jù)。預(yù)測(cè)算法的檢驗(yàn)方法主要有自身一致性檢驗(yàn)、獨(dú)立性檢驗(yàn)、留一法檢驗(yàn)三種[29]。

      留一交叉驗(yàn)證(1eave-one-outcross-validation,LOOCV)每次取出數(shù)據(jù)集中的一條蛋 白質(zhì)序列作為測(cè)試樣本,而剩余的蛋白質(zhì)序列作為訓(xùn)練集對(duì)測(cè)試樣本的亞細(xì)胞進(jìn)行定位預(yù)測(cè)。直到所有樣本序列都被測(cè)試一遍為止。LOOCV的缺點(diǎn)是計(jì)算成本高,費(fèi)時(shí),但是其結(jié)果更加嚴(yán)格可靠,已經(jīng)在很多方法中得到了應(yīng)用。

      評(píng)估預(yù)測(cè)算法常用的算法評(píng)價(jià)指標(biāo)有 :敏感性、特異性和 Matthew相關(guān)系數(shù)。敏感性指標(biāo)是指每類樣本中被正確識(shí)別的比例,反映了預(yù)測(cè)成功率;特異性指標(biāo)是指被判別為第i類的樣本中真正屬于第i類的比例,反映了預(yù)測(cè)的可信度。

      Sensitivity(i)=■×100%

      Spencificity(i)=■×100%

      Matthews相關(guān)系數(shù)MCC可以對(duì)算法的準(zhǔn)確率進(jìn)行評(píng)估。

      MCC(i)=■

      其中,tp(i)是第i類樣本中被預(yù)測(cè)正確的數(shù)目,fn(i)是第i類樣本被錯(cuò)誤的判別為其他類別的數(shù)目,fp(i)是非第i類樣本但被預(yù)測(cè)為第i類樣本的數(shù)目,tn(i)是非第i類樣本中被預(yù)測(cè)正確的樣本數(shù)目。MCC指標(biāo)取值0至1,取值越高說(shuō)明分類器的性能越好,當(dāng)MCC取1時(shí),所有樣本均被正確識(shí)別;當(dāng)MCC取0時(shí),分類器的判別效果與隨機(jī)指派的結(jié)果一樣,這樣的分類器是最差的。

      【參考文獻(xiàn)】

      [1]徐建華,朱家勇.生物信息學(xué)在蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測(cè)中的應(yīng)用[J].J Med Mol Biol, 2005,2(3):227-232.

      [2]張樹(shù)波,賴劍煌.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的機(jī)器學(xué)習(xí)方法[J].計(jì)算機(jī)科學(xué),2009,36( 4):29-33.

      [3]張麗.蛋白質(zhì)亞細(xì)胞定位的序列編碼及預(yù)測(cè)方法研究[D].湖南:湖南大學(xué)計(jì)算與通信學(xué)院,2010.

      [4]郭麗麗,陳月輝.基于機(jī)器學(xué)習(xí)的蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)[J].信息技術(shù)與信息化,2011,5:73-75.

      [5]吳文佳.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)方法研究[D].南京:南京航空航天大學(xué),2008.

      [6]趙禹,趙巨東,姚龍.用離散增量結(jié)合支持向量機(jī)方法預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位[J].生物信息學(xué),2010,8(3):241-244.

      [7]吳澤月,陳月輝.蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)研究[J].山東師范大學(xué)學(xué)報(bào),2012,4(27):33-37.

      [責(zé)任編輯:謝慶云]

      富蕴县| 金华市| 彰化县| 仪征市| 台湾省| 闻喜县| 仁怀市| 德惠市| 郸城县| 宝鸡市| 多伦县| 双城市| 祁门县| 武夷山市| 金昌市| 西吉县| 克什克腾旗| 重庆市| 吉木乃县| 台中市| 陆川县| 申扎县| 同心县| 东莞市| 高州市| 涟源市| 临桂县| 开化县| 平顺县| 渭源县| 申扎县| 霍山县| 平定县| 高清| 屯门区| 商都县| 夏河县| 吴川市| 泽普县| 安乡县| 娱乐|