• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于禁忌遺傳算法的RNA二級結構預測

      2011-04-26 09:27:52劉勇國
      電子科技大學學報 2011年5期
      關鍵詞:堿基遺傳算法種群

      劉勇國,朱 嬋,晏 華

      (1. 電子科技大學計算機科學與工程學院 成都 611731; 2. 蘇州大學江蘇省計算機信息處理技術重點實驗室 江蘇 蘇州 215006;3. 四川建筑職業(yè)技術學院圖書館 四川 德陽 618000)

      生物體根據(jù)脫氧核糖核酸(deoxy ribonucleic acid,DNA)的遺傳信息合成蛋白質并完成各項生命活動過程,如生物信號的識別和傳遞,營養(yǎng)物質的運輸?shù)?。在該過程中,蛋白質合成的直接模板是核糖核酸(ribonucleic acid,RNA)而非DNA。隨著對RNA分子結構探索的不斷深入,研究發(fā)現(xiàn)某些簡單生物體如煙草花葉病毒的RNA已成為遺傳信息的直接載體,負責存儲遺傳信息和蛋白質合成。目前,研究RNA分子結構成為認知生物遺傳信息和蛋白質合成的重要途徑。RNA分子由一級、二級和三級結構[1]組成。一級結構為多核苷酸鏈的核苷酸序列;二級結構為多核苷酸鏈回折形成的配對雙螺旋區(qū)和不對稱區(qū)域;三級結構為二級結構單元相互作用形成的三維空間結構,確定二級結構單元的空間定位取向和蛋白質合成。RNA一級結構預測起步最早,方法較完善,主要通過生物化學方法直接預測。二級結構預測主要采用物理化學和生物信息學方法。三級結構預測已被證明為NP-hard問題[2]。由于二級結構介于一級結構和三級結構之間,存儲了較多高級結構信息,因此研究RNA二級結構成為預測RNA分子結構的重要途徑。

      RNA二級結構預測包括基于物理化學的方法和基于生物信息學的方法[3]兩類。物理化學的方法通過X射線結晶衍射和核磁共振確定RNA分子結構,雖然測量精度高,但對軟硬件要求較高,而且RNA分子降解較快,難以結晶,造成預測困難,所以,該類方法適用于堿基數(shù)量小于100的RNA二級結構預測問題。生物信息學方法包含系統(tǒng)發(fā)育比較技術和自由能最小技術[2]兩類預測技術。系統(tǒng)發(fā)育比較技術對比待測序列與已知同源序列,通過同源序列二級結構的形成方式預測待測序列的二級結構[1]。自由能最小技術源于熱動力學的能量耗散原理,通過設置RNA二級結構中莖環(huán)結構的熱動力學參數(shù),模擬實際RNA分子熱運動,建立二級結構的能量模型,計算RNA序列折疊后的自由能,確定具備最小自由能的二級結構為預測結果,實現(xiàn)對RNA二級結構的預測[2],預測方法包括動態(tài)規(guī)劃算法[4]、退火模擬算法[5]、遺傳算法[6]、上下文無關文法預測算法[7]、協(xié)變信息預測算法[3]等。由于遺傳算法具有隱含并行性、自適應性等特點,已應用于RNA二級結構預測問題。研究發(fā)現(xiàn),遺傳算法的種群進化過程缺乏記憶性,搜索過程易出現(xiàn)種群早熟現(xiàn)象,導致預測精度降低[4,8-9]。文獻[10]設計并行遺傳算法模擬RNA序列形成二級結構時的折疊情況,推測RNA序列的二級結構。文獻[11]采用十進制編碼設計遺傳算法預測RNA二級結構,以改善預測效率和精度[8,11-12]。文獻[5]組合模擬退火與遺傳算法,以增強預測算法的局部搜索能力,避免種群早熟現(xiàn)象。文獻[13]基于混沌差分進化算法預測RNA二級結構,利用混沌映射的偽隨機性和遍歷性提高算法的全局搜索能力。文獻[14]提出基于免疫粒子群集成的RNA二級結構預測方法,通過并行群落優(yōu)化方式實現(xiàn)協(xié)同演化。

      本文提出基于禁忌遺傳算法的RNA二級結構預測算法TGARNA。TGARNA算法給出莖區(qū)相容性檢測過程,保留最長莖區(qū)構造莖區(qū)相容個體;將禁忌思想引入遺傳操作,記錄個體家族特征和進化過程,防止近親繁殖,保持種群多樣性。仿真實驗表明,TGARNA算法能夠獲取最小自由能并預測RNA二級結構。

      1 RNA二級結構

      除少數(shù)病毒RNA為雙鏈結構外,RNA分子通常為多核苷酸單鏈結構,包含腺嘌呤(adenine,A)、鳥嘌呤(guanine,G)、胞嘧啶(cytosine,C)和尿嘧啶(uralic,U)4類含氮堿基。堿基與戊糖結合形成核苷,戊糖側鏈與磷酸分子結合形成核苷酸,核苷酸分子以3’和5’磷酸二酯鍵連接形成核苷酸序列[1]。RNA單鏈自身回折呈現(xiàn)堿基配對和單鏈交替出現(xiàn)的莖環(huán)結構,形成RNA二級結構,如圖1所示。

      圖1 RNA二級結構示意圖

      RNA二級結構中,堿基以A-U、G-C或G-U互補配對形成的連續(xù)雙螺旋區(qū)域稱為莖區(qū),不構成互補配對的單鏈結構稱為環(huán)區(qū),環(huán)區(qū)類型包括發(fā)夾環(huán)、凸環(huán)、內環(huán)和內分支環(huán)等。莖區(qū)由氫鍵相連的配對堿基疊加形成,氫鍵數(shù)量越多堿基對自由能越小,越有利于增強二級結構穩(wěn)定性。環(huán)區(qū)數(shù)量增加導致自由能增長,造成二級結構穩(wěn)定性下降[2]。RNA二級結構數(shù)目隨序列長度增加呈指數(shù)級增長,因此有效預測RNA二級結構成為RNA分子結構研究急待解決的問題[2]。堿基是RNA二級結構的基本單元,連續(xù)配對堿基集形成莖區(qū),未配對堿基構成環(huán)區(qū),相容莖區(qū)集唯一確定RNA二級結構[2]。RNA二級結構的相關描述如下[5]。

      2 TGARNA算法

      TGARNA算法過程基于遺傳算法,通過相容性檢測構造合法種群,引入禁忌思想防止近親繁殖,提高種群多樣性[15],算法流程如圖2所示。

      圖2 TGARNA算法流程

      2.1 種群初始化

      圖3 個體編碼方式

      2.2 相容性檢測

      由于不相容莖區(qū)組合將生成非法RNA二級結構,本文設計相容性檢測環(huán)節(jié)建立合法個體。常用相容性檢測方法根據(jù)莖區(qū)排序位置確定莖區(qū)是否保留,未考慮其能量值,易造成低能量莖區(qū)漏選[5]。鑒于RNA二級結構中莖區(qū)數(shù)目越多,莖區(qū)長度越長,自由能越小,故應盡量保留長相容莖區(qū)。本文相容性檢測步驟如下:

      通過相容性檢測避免非法個體,保留低能量莖區(qū),改善種群性能。

      2.3 適應度計算

      本文采用文獻[16]提出的最小自由能模型評價RNA二級結構穩(wěn)定度,預測RNA二級結構。RNA二級結構自由能計算為:

      2.4 選擇操作

      本文采用比例選擇方式,個體適應度越大,其選擇概率越大。個體Xi的選擇概率為:

      2.5 交叉操作

      交叉操作采用融合禁忌思想的單點交叉方式,針對個體Xi的莖區(qū)組合Xsi進行。TGARNA算法將家族特征和禁忌思想引入交叉操作,防止近親個體繁殖后代,保持種群多樣性;同時,通過期望準則允許禁忌個體產(chǎn)生高適應度后代,增加選擇壓力,提高算法收斂速度。交叉操作步驟如下。

      2.6 變異操作

      本文采用動態(tài)變異方式產(chǎn)生后代個體,針對莖區(qū)組合更新變異后個體的家族特征和禁忌表。變異操作步驟如下。

      2.7 TGARNA算法的實現(xiàn)

      TGARNA算法步驟如下。

      1) 給定RNA序列,建立莖區(qū)池并生成初始種群,設g=1;

      2) 執(zhí)行種群相容性檢測;

      3) 執(zhí)行選擇操作;

      4) 執(zhí)行交叉操作;

      5) 執(zhí)行變異操作;

      6) 將父代種群中Nd個最優(yōu)個體更新后代種群中適應度最低的Nd個個體;

      3 實驗結果

      仿真實驗平臺采用Windows XP SP3,Matlab7.1語言,Intel Core 2 Duo 2.20 GHz CPU,2G物理內存,仿真算法每次實驗運行20次。首先討論算法參數(shù)的選擇過程,然后分析TGARNA算法的預測結果。

      3.1 算法參數(shù)選擇

      圖4 不同代溝值Gg的算法進化結果

      表1 不同代溝值Gg的結果比較

      圖5 不同交叉概率pc的算法進化結果

      表2 不同交叉概率pc的結果比較

      圖6 不同禁忌表長度因子α的算法進化結果

      表3 不同禁忌表長度因子α的結果比較

      3.2 實驗結果討論

      比較基于遺傳算法的RNA二級結構預測方法(genetic algorithm based prediction of rna secondary structure,GARNA)、融入相容性檢測的基于遺傳算法的RNA二級結構預測方法GARNA*和TGARNA算法,GARNA算法采用比例選擇、單點交叉和單點變異實現(xiàn)遺傳操作;GARNA*算法在GARNA算法的基礎上改進莖區(qū)相容性檢測;TGARNA算法在GARNA*的基礎上融入禁忌思想。算法實驗種群規(guī)模均為100??紤]到RNA序列長度差異,針對Giardia virus和Y1 scRNA序列,進化代數(shù)設為100;針對U17 snoRNA和PSTVd RNA序列,進化代數(shù)設為1 000。通過調整進化代數(shù)適應不同長度序列RNA分子的二級結構預測。

      仿真實驗采用Giardia virus、Y1 scRNA、U17 snoRNA和PSTVd RNA共4個RNA測試序列。Giardia virus序列源于賈第蟲病毒體,由77個堿基構成,包含4個莖區(qū)、2個發(fā)夾環(huán)和1個多分支環(huán)。Y1 scRNA序列源于小家鼠的線形染色體組RNA,由111個堿基構成,包含2個莖區(qū)、1個發(fā)夾環(huán)和1個內環(huán)[17]。U17 snoRNA序列源于沼澤側頸龜?shù)霓D錄RNA,由240個堿基構成,包含9個莖區(qū)、3個發(fā)夾環(huán)、3個凸環(huán)、5個內環(huán)和1個多分支環(huán)。PSTVd RNA序列源于馬鈴薯紡錘塊莖類病毒體的線形染色體組RNA,由359個堿基構成,包含25個莖區(qū)、1個發(fā)卡環(huán)和23個內環(huán)[17]。

      Giardia virus RNA二級結構自由能的計算過程如圖7所示,該序列二級結構的預測結果如表4所示。預測指標包括平均最小自由能、最小自由能均方差、算法首次獲得最小自由能的平均運行時間和正確預測莖區(qū)數(shù)與實際二級結構中的莖區(qū)數(shù)比??梢姡珿ARNA算法的自由能下降緩慢,GARNA*與TGARNA算法的自由能下降迅速。GARNA*算法的運行時間下降到 0.6 s時,預測精度提高到56.52%,TGARNA算法的預測精度進一步提高到60.12%,正確預測3個莖區(qū)、1個發(fā)夾環(huán)和1個多分支環(huán)。

      圖7 Giardia virus序列二級結構的自由能計算

      表4 Giardia virus序列二級結構的預測結果

      Y1 scRNA二級結構自由能計算如圖8所示。該序列二級結構的預測結果如表5所示。GARNA算法收斂速度較慢,GARNA*和TGARNA算法能較快獲得最小自由能。GARNA*算法的運行時間下降到2.1 s時,預測精度達到100%,正確預測Y1 scRNA序列的二級結構。TGARNA算法的運行時間進一步下降到0.9 s。

      圖8 Y1 scRNA的二級結構的自由能計算

      表5 Y1 scRNA序列二級結構的預測結果

      U17 snoRNA二級結構自由能的計算過程如圖9所示。該序列二級結構的預測結果如表6所示。GARNA*算法性能改善明顯,獲取最小自由能的速度較TGARNA算法快,GARNA算法預測效率最低。TGARNA算法較GARNA*算法的預測精度高,正確預測5個莖區(qū)、2個發(fā)夾環(huán)和1個凸環(huán)。

      圖9 U17 snoRNA序列二級結構的自由能計算

      表6 U17 snoRNA二級結構的預測結果

      PSTVd RNA二級結構自由能計算如圖10所示。該序列二級結構的預測結果如表7所示。GARNA算法性能最差,TGARNA算法較GARNA*算法的最小自由能下降。TGARNA算法預測效率最高并達到最高預測精度,正確預測21個莖區(qū)、1個發(fā)夾環(huán)和16個內環(huán)。

      圖10 PSTVd RNA的二級結構自由能計算

      表7 PSTVd RNA二級結構的預測結果

      實驗表明,改進莖區(qū)相容性檢測能夠改善種群性能,引入禁忌思想能夠防止近親個體繁殖,預測算法的收斂速度和預測效率得到改善。

      4 結 論

      RNA分子結構是生物信息學領域的重要研究對象,通過RNA結構研究病毒的遺傳信息,探索RNA參與合成蛋白質及轉錄遺傳信息的過程。本文給出基于禁忌遺傳算法的RNA二級結構預測方法TGARNA,通過設計莖區(qū)相容性檢測,保留長莖區(qū)以降低個體自由能,將家族特征和禁忌思想融入個體編碼,防止近親繁殖,保持種群多樣性。仿真實驗表明,除U17 snoRNA序列外,TGARNA算法能夠實現(xiàn)較高的預測效率和精度。

      由于RNA二級結構預測的最小自由能模型忽略了某些結構(如假結),造成預測算法對U17 snoRNA序列的預測精度較低。假結結構形成復雜,文獻[1]證明使用最小自由能模型預測包含任意假結的RNA二級結構為NP完全問題[1]。后續(xù)研究工作中,將考慮基于TGARNA算法將個體設計為由單位結構組成,利用TGARNA算法計算相容單元結構集合形成初始RNA二級結構,通過環(huán)區(qū)配對確定被測序列中的假結結構,預測含假結的RNA二級結構。

      [1] PAR S K, BANDYOPADHYAY S, RAY S S. Evolutionary computation in bioinformatics: a review[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C:Applications and Reviews, 2006, 36(5): 601-615.

      [2] COHEN J. Bioinformatics - an introduction for computer scientists[J]. ACM Computer Surveys, 2004, 36(2):122-158.

      [3] 鄒權, 郭茂祖, 張濤濤. RNA二級結構預測方法綜述[J].電子學報, 2008, 36(2): 331-337.ZOU Quan, GUO Mao-zu, ZHANG Tao-tao. A review of RNA secondary structure prediction algorithms[J]. Acta Electronica Sinica, 2008, 36(2): 331-337.

      [4] RIVAS E, EDDY S R. A dynamic programming algorithm for RNA structure prediction including pseudoknots[J].Journal of Molecular Biology, 1999, 285(5): 2053-2068.

      [5] 任清華, 莫忠息, 陶玉敏. 預測RNA二級結構的一種遺傳模擬退火算法[J]. 武漢大學學報(理學版), 2004, 50(1):23-28.REN Qing-hua, MO Zhong-xi, TAO Yu-min. A geneticsimulated-annealing algorithm for predicting RNA secondary structure[J]. Journal of Wuhan University(Natural Science Edition), 2004, 50(1): 23-28.

      [6] VAN BATENBURG F H D, GULTYAEV A P, PLEIJ C W A.An APL programmed genetic algorithm for the prediction of RNA secondary structure[J]. Journal of Theoretical Biology,1995, 174(3): 269-280.

      [7] 唐四薪, 劉艷波, 尹軍. 文法推斷RNA二級結構的研究進展[J]. 生物信息學, 2008, 6(4): 190-192.TANG Si-xin, LIU Yan-bo, YIN Jun. Research advances of grammatical inference of RNA secondary structure[J]. China Journal of Bioinformatics, 2008, 6(4): 190-192.

      [8] WIESE K C, DESCHENES A A, HENDRIKS A G.RnaPredict—an evolutionary algorithm for RNA secondary structure prediction[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2008, 5(1):25-41.

      [9] LIU Y G, CHEN K F, LIAO X F, ZHANG W. A genetic clustering method for intrusion detection[J]. Pattern Recognition, 2004, 37(5): 927-942.

      [10] SHAPIRO B A, WU J C, BENGALI D, POTTS M J. The massively parallel genetic algorithm for RNA folding MIMD implementation and population variation[J].Bioinformatics, 2001, 17(2): 137-148.

      [11] WIESE K C, GLEN E. A permutation-based genetic algorithm for the RNA folding problem: a critical look at selection strategies, crossover operators and representation issues[J]. Biosystems, 2003, 72(1-2): 29-41.

      [12] WIESE K C, GLEN E. A permutation based genetic algorithm for RNA secondary structure prediction[C]//In:Proceedings of the 2nd International Conference on Hybrid Intelligent Systems. Chile: [s.n.], 2002, 173-182.

      [13] 胡桂武, 彭宏. 利用混沌差分進化算法預測RNA二級結構[J]. 計算機科學, 2007, 34(9): 163-166.HU Gui-wu, PENG Hong. An algorithm-base chaos differential evolution for predicting RNA secondary structure[J]. Computer Science, 2007, 34(9): 163-166.

      [14] 胡桂武, 彭宏. 基于免疫粒子群集成的RNA二級結構預測算法[J]. 計算機工程與應用, 2007, 43(3): 26-29.HU Gui-wu, PENG Hong. Algorithm based on immune PSO ensemble for predicting RNA secondary structure[J].Computer Engineering and Applications, 2007, 43(3):26-29.

      [15] TING K C, LI H T, LEE H N. On the harmonious mating strategy throug tabu search[J]. Information Sciences, 2003,156(3-4): 189-214.

      [16] MATHEWS D H, SABINA J, ZUKER M, TURNER D H.Expanded sequence dependence of thermodynamic parameters improves prediction of RNA secondary structure[J]. Journal of Molecular Biology, 1999, 288(5):911-940.

      猜你喜歡
      堿基遺傳算法種群
      邢氏水蕨成功繁衍并建立種群 等
      山西省發(fā)現(xiàn)刺五加種群分布
      應用思維進階構建模型 例談培養(yǎng)學生創(chuàng)造性思維
      中國科學家創(chuàng)建出新型糖基化酶堿基編輯器
      生命“字母表”迎來4名新成員
      科學24小時(2019年5期)2019-06-11 08:39:38
      生命“字母表”迎來4名新成員
      基于自適應遺傳算法的CSAMT一維反演
      一種基于遺傳算法的聚類分析方法在DNA序列比較中的應用
      基于遺傳算法和LS-SVM的財務危機預測
      基于改進的遺傳算法的模糊聚類算法
      日喀则市| 陆良县| 筠连县| 秭归县| 临江市| 仙游县| 巴南区| 三明市| 呼玛县| 华阴市| 治县。| 寿阳县| 桐庐县| 阳曲县| 霸州市| 射洪县| 巫山县| 五家渠市| 安图县| 黄骅市| 开原市| 仪陇县| 绥滨县| 哈密市| 台中县| 昌图县| 司法| 台中县| 宁明县| 勐海县| 长武县| 昌平区| 西吉县| 上林县| 师宗县| 攀枝花市| 万全县| 衡阳县| 阿尔山市| 建阳市| 和静县|