• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于HBV序列的系統(tǒng)進(jìn)化分析和特征提取研究

      2015-04-18 03:00:30謝坐祥張俊鵬
      大理大學(xué)學(xué)報(bào) 2015年12期
      關(guān)鍵詞:進(jìn)化樹堿基特征提取

      謝坐祥,陳 霞,張俊鵬

      (大理大學(xué)工程學(xué)院,云南大理 671003)

      乙型肝炎病毒(Hepatitis B Virus,HBV)是一類引起人類慢、急性肝炎的環(huán)狀DNA病毒〔1〕。目前全球約有2.4億人感染乙型肝炎,每年約有78萬人死于慢性或急性乙型肝炎。根據(jù)世界衛(wèi)生組織(WHO)〔1〕報(bào)告,我國(guó)有5%~10%的成年人是HBV慢性感染者。

      HBV基因?yàn)椴糠珠]合雙鏈環(huán)狀DNA,全長(zhǎng)約3.2 kb。它主要分為P、X、C和S 4個(gè)基因區(qū),C區(qū)分為C基因和前C基因片段,S區(qū)分為前S1、前S2和S基因片段〔2〕。目前研究表明:HBV基因型可以分為A、B、C、D、E、F、G和H 8種類型,不同的基因型呈現(xiàn)不同地理區(qū)域分布,我國(guó)主要以B和C兩種基因型為主〔3〕。

      本文將基于機(jī)器學(xué)習(xí)算法和數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)HBV多序列比對(duì)、系統(tǒng)進(jìn)化分析和特征提取3個(gè)層次的分析。這將有利于進(jìn)一步了解HBV病毒在序列層次下的進(jìn)化關(guān)系、突變過程、基因特點(diǎn)和基因型種類,進(jìn)而為HBV患者提供更科學(xué)有效的輔助治療。

      1 材料與方法

      1.1 數(shù)據(jù)源 本文選用的HBV序列數(shù)據(jù)源來源于云南省第一人民醫(yī)院〔3〕,選取的HBV序列片段為X和前C基因片段。10例HBV感染者樣本使用聚合酶鏈?zhǔn)椒磻?yīng)(Polymerase Chain Reaction,PCR)擴(kuò)增技術(shù)克隆至364個(gè)樣本,每例樣本的克隆數(shù)如表1所示。

      表1 HBV感染者樣本及其克隆數(shù)

      1.2 分析方法 HBV序列分析流程圖如圖1所示,整個(gè)分析過程由3個(gè)步驟組成。步驟1獲取HBV數(shù)據(jù)源,數(shù)據(jù)源包括364個(gè)HBV樣本序列和38個(gè)HBV參考序列,然后進(jìn)行多序列比對(duì)。為了保證HBV多序列比對(duì)的質(zhì)量,本文采用手動(dòng)比對(duì)方法對(duì)HBV序列進(jìn)行多序列比對(duì)。步驟2就比對(duì)后的HBV序列進(jìn)行系統(tǒng)進(jìn)化分析,通過構(gòu)造系統(tǒng)進(jìn)化樹建立HBV樣本序列與參考序列之間的進(jìn)化分析。本文使用鄰接法〔4〕、最大似然法〔5〕、最小進(jìn)化法〔6〕、平均距離法〔7〕和最大簡(jiǎn)約法〔8〕5種常用方法分別對(duì)10例HBV克隆序列構(gòu)建系統(tǒng)進(jìn)化樹;為了研究堿基位點(diǎn)與HBeAg陽性與陰性的關(guān)系,步驟3對(duì)364個(gè)HBV樣本序列進(jìn)行特征堿基位點(diǎn)提取,提取方法采用CFS(Correlation Feature Selection)〔9〕、卡方檢驗(yàn)(Chi-square Test)〔10〕和信息熵(Information Entropy)〔11〕3種方法進(jìn)行特征提取。為了評(píng)價(jià)特征提取前后的分類精度,分別使用決策樹C4.5算法〔12〕、樸素貝葉斯(Nave Bayes)〔13〕、支持向量機(jī)(SVM)〔14〕和隨機(jī)森林(Random Forest)〔15〕4種分類器對(duì)HBV序列樣本進(jìn)行分類精度比較。

      圖1 HBV序列分析流程圖

      2 HBV序列系統(tǒng)進(jìn)化分析

      進(jìn)化分析是從分子特性出發(fā)了解生物系統(tǒng)的內(nèi)在規(guī)律。進(jìn)化論表明物種之間存在一定的親緣關(guān)系,一般用系統(tǒng)進(jìn)化樹距離的大小表示序列進(jìn)化中親緣關(guān)系的遠(yuǎn)近。

      本文使用MEGA v6軟件中的鄰接法、最大似然法、最小進(jìn)化法、平均距離法和最大簡(jiǎn)約法5種方法對(duì)10例HBV克隆序列構(gòu)建系統(tǒng)進(jìn)化樹,參數(shù)為MEGA軟件默認(rèn)設(shè)置參數(shù)。通過分析系統(tǒng)進(jìn)化樹,5種方法所預(yù)測(cè)的HBV基因型完全一致,這也驗(yàn)證了不同方法預(yù)測(cè)HBV基因型結(jié)果一致性。

      除了編號(hào)8、13和24的真實(shí)基因型未知外,其余編號(hào)的預(yù)測(cè)基因型與真實(shí)基因型結(jié)果完全一致,見表1。這也進(jìn)一步說明采用系統(tǒng)進(jìn)化樹預(yù)測(cè)未知HBV序列基因型的方法是有效的。

      3 HBV序列特征提取

      特征提取也叫特征選擇,它是數(shù)據(jù)預(yù)處理的關(guān)鍵步驟。其主要思想是從已知的特征屬性集中根據(jù)某一特定準(zhǔn)則提取出區(qū)分性較好的單個(gè)特征子集或一個(gè)最優(yōu)特征屬性子集〔16〕。經(jīng)特征提取后可以剔除大量的冗余信息和不相關(guān)特征信息,這不僅降低特征屬性空間維數(shù),還節(jié)約分析時(shí)間和提高對(duì)目標(biāo)函數(shù)的預(yù)測(cè)性能力。

      目前研究表明,每條HBV序列的堿基位點(diǎn)中,往往很多堿基位點(diǎn)是保守的,與HBV基因型分類無關(guān),因此對(duì)HBV序列的堿基位點(diǎn)進(jìn)行特征提取可以提高HBV基因型正確率和預(yù)測(cè)水平,同時(shí)在序列層次下挖掘與乙型肝炎患者相關(guān)的單核苷酸多態(tài)性位點(diǎn)(Single-Nucleotide Polymorphism,SNP)〔17〕。

      3.1 特征堿基位點(diǎn)提取 HBV序列經(jīng)過多序列比對(duì)后,總共有624個(gè)堿基位點(diǎn)。由于CFS方法提取的是一個(gè)最優(yōu)屬性集,其大小為11。然而,卡方和信息熵方法按照權(quán)重重要性排列每個(gè)堿基位點(diǎn),其大小為624。為了公平地比較他們之間的分類精度,卡方和信息熵方法都統(tǒng)一選擇前11個(gè)最具有代表性的特征屬性集。

      另一方面,為了研究屬性集大小與分類精度之間的關(guān)系,將卡方和信息熵方法提取的特征屬性集大小擴(kuò)大至20、30、40和50。

      3.2 分類結(jié)果分析 本文選取決策樹C4.5、Na?ve Bayes、SVM和Random Forest 4種經(jīng)典分類器對(duì)CFS、卡方和信息熵3種特征提取前后的HBV序列進(jìn)行分類分析。軟件平臺(tái)為WEKA v3.7,屬性集大小設(shè)置為11,20、30、40和50。

      如表2所示,Original代表原始HBV序列數(shù)據(jù),CFS-11代表CFS特征提取方法后的HBV序列數(shù)據(jù),Chi-11、Chi-20、Chi-30、Chi-40和Chi-50分別代表卡方特征提取法的前11、20、30、40和50特征屬性集大小的HBV序列數(shù)據(jù),InfoGain-11、InfoGain-20、InfoGain-30、InfoGain-40和InfoGain-50分別代表信息熵特征提取法的前11、20、30、40和50特征屬性集大小的HBV序列數(shù)據(jù)。當(dāng)特征屬性集大小為11的時(shí)候,4種分類器的分類精度ACC(Accuracy)有所降低,但是所選擇的11個(gè)特征屬性集也能夠很好的表征出原始HBV序列數(shù)據(jù)的624個(gè)特征屬性。隨著特征屬性集大小的增大,4種分類器的分類精度ACC都有增大的趨勢(shì)。特別地,當(dāng)特征屬性集大小選擇合適時(shí),Na?ve Bayes和Random Forest的分類精度ACC可以達(dá)到最大值1。這些結(jié)果表明:特征提取對(duì)HBV序列數(shù)據(jù)降維的同時(shí),也能夠保證甚至提高分類精度ACC。

      表2 比較不同特征提取方法的分類精度ACC

      4 結(jié)語

      本文從多序列比對(duì)、系統(tǒng)進(jìn)化分析和特征提取3個(gè)層次對(duì)10例HBV感染者的HBV序列進(jìn)行分析。首先采用手動(dòng)比對(duì)方法對(duì)HBV序列進(jìn)行多序列比對(duì)。然后利用鄰接法、最大似然法、最小進(jìn)化法、平均距離法和最大簡(jiǎn)約法構(gòu)造10例HBV克隆序列的系統(tǒng)進(jìn)化樹。5種系統(tǒng)進(jìn)化樹構(gòu)造法的預(yù)測(cè)結(jié)果完全一致,預(yù)測(cè)的10例(編號(hào)8、10、13、17、24、26、32、213、264和320)HBV感染者基因型分別為:C、C、C、Ba、C、C、C、C、C和C。除去未知基因型,準(zhǔn)確率為100%。為了降低HBV序列數(shù)據(jù)的維數(shù),采用CFS、卡方檢驗(yàn)和信息熵3種方法進(jìn)行特征提取。4種分類器(決策樹C4.5、Na?ve Bayes、SVM和Random Forest)的分類結(jié)果表明:特征提取能夠降低HBV序列數(shù)據(jù)的維數(shù),同時(shí)保證甚至提高分類精度。

      〔1〕World Health Organization.乙型肝炎實(shí)況報(bào)道第204號(hào)〔EB/OL〕.〔2015-07-19〕.http://www.who.int/mediacentre/factsheets/fs204/zh/.

      〔2〕BRECHOT C,POURCEL C,LOUISE A,et al.Presence of integrated hepatitis B virus DNA sequences in cellular DNA of human hepatocellular carcinoma〔J〕.Nature,1980,286(5772):533-535.

      〔3〕SHEN T,GAO J,ZOU Y L,et al.Novel hepatitis B virus subgenotype in the southern Yunnan Province of China〔J〕.Intervirology,2009,52(6):340-346.

      〔4〕SAITOU N,NEI M.The neighbor-joining method:a new method for reconstructing phylogenetic trees〔J〕.Molecular Biology and Evolution,1987,4(4):406-425.

      〔5〕YANG Z.PAML:a program package for phylogenetic analysis by maximum likelihood〔J〕.Computer Applications in the Biosciences:CABIOS,1997,13(5):555-556.

      〔6〕RZHETSKY A,NEI M.A simple method for estimating and testing minimum-evolution trees〔J〕.Mol Biol Evol,1992,9(5):945-967.

      〔7〕TAKEZAKI N,NEI M.Genetic distances and reconstruction of phylogenetic trees from microsatellite DNA〔J〕.Genetics,1996,144(1):389-399.

      〔8〕SAITOU N,IMANISHI T.Relative efficiencies of the Fitch-Margoliash,maximum-parsimony,maximum-likelihood,minimum-evolution,and neighbor-joining methods of phylogenetic tree construction in obtaining the correct tree〔J〕.Mol Biol Evol,1989,6(5):514-525.

      〔9〕HALL M A.Correlation-based feature selection for machine learning〔D〕.Hamilton:The University of Waikato,1999.

      〔10〕YATES F.Contingency tables involving small numbers and the χ2test〔J〕.Supplement to the Journal of the Royal Statistical Society,1934,1(2):217-235.

      〔11〕KULLBACK S,LEIBLER R A.On information and sufficiency〔J〕.The Annals of Mathematical Statistics,1951,22(1):79-86.

      〔12〕QUINLAN J R.C4.5:programs for machine learning〔M〕.Amsterdam:Elsevier,2014.

      〔13〕RISHI.AnempiricalstudyofthenaiveBayesclassifier〔C〕//IJCAI 2001 workshop on empirical methods in artificial intelligence.2001,3(22):41-46.

      〔14〕CORTES C,VAPNIK V.Support-vector networks〔J〕.Machine Learning,1995,20(3):273-297.

      〔15〕 BREIMAN L.Random forests〔J〕.Machine Learning,2001,45(1):5-32.

      〔16〕GUYON I,ELISSEEFF A.An introduction to variable and feature selection〔J〕.The Journal of Machine Learning Research,2003,3:1157-1182.

      〔17〕AHMADIAN A,GHARIZADEH B,GUSTAFSSON A C,et al.Single-nucleotide polymorphism analysis by pyrosequencing〔J〕.Analytical Biochemistry,2000,280(1):103-110.

      猜你喜歡
      進(jìn)化樹堿基特征提取
      基于心理旋轉(zhuǎn)的小學(xué)生物進(jìn)化樹教學(xué)實(shí)驗(yàn)報(bào)告
      常見的進(jìn)化樹錯(cuò)誤概念及其辨析*
      應(yīng)用思維進(jìn)階構(gòu)建模型 例談培養(yǎng)學(xué)生創(chuàng)造性思維
      中國(guó)科學(xué)家創(chuàng)建出新型糖基化酶堿基編輯器
      生命“字母表”迎來4名新成員
      生命“字母表”迎來4名新成員
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      Bagging RCSP腦電特征提取算法
      艾草白粉病的病原菌鑒定
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      垦利县| 西乡县| 滨海县| 浙江省| 龙南县| 项城市| 嵊泗县| 南乐县| 普安县| 定日县| 广河县| 蒲江县| 丹巴县| 项城市| 易门县| 沙洋县| 宜丰县| 清徐县| 酉阳| 浦北县| 长沙县| 九台市| 岗巴县| 玉山县| 巩留县| 桂东县| 南开区| 登封市| 波密县| 调兵山市| 曲周县| 庆云县| 静宁县| 鞍山市| 中山市| 深泽县| 日照市| 纳雍县| 阜宁县| 丽江市| 石嘴山市|