• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘在預(yù)測(cè)甲型流感病毒蛋白宿主偏好性中的應(yīng)用研究

      2018-10-31 10:49:24王佳丁雄飛
      關(guān)鍵詞:關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

      王佳 丁雄飛

      摘要:針對(duì)甲型流感病毒的宿主偏好性問(wèn)題,開展數(shù)據(jù)挖掘的應(yīng)用研究。利用CART決策樹算法構(gòu)建了甲流病毒各個(gè)蛋白及整個(gè)毒株的宿主偏好預(yù)測(cè)模型,進(jìn)一步利用關(guān)聯(lián)分析挖掘影響甲流病毒宿主偏好的關(guān)鍵氨基酸位點(diǎn),為甲流病毒跨種傳播的研究提供理論支持同時(shí)對(duì)公共健康提供預(yù)警。

      關(guān)鍵詞:甲型流感病毒;數(shù)據(jù)挖掘;CART決策樹;關(guān)聯(lián)規(guī)則

      中圖分類號(hào):Q939.4 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2018)06-0073-02

      1 前言

      流感是世界范圍內(nèi)受關(guān)注度比較高的傳染性疾病之一, 每年導(dǎo)致300萬(wàn)到500萬(wàn)例嚴(yán)重疾病并有25萬(wàn)到50萬(wàn)例導(dǎo)致死亡。甲型流感病毒起源于野生水禽[1],由于物種屏障的限制,它們通常在禽鳥種群內(nèi)生存和進(jìn)化,無(wú)法感染其它種類的宿主。然而,經(jīng)過(guò)進(jìn)化中的位點(diǎn)突變以及基因重組的作用導(dǎo)致病毒發(fā)生了抗原漂移或抗原轉(zhuǎn)移,使得部分病毒獲得了跨越物種屏障并感染人類的能力[2]。利用數(shù)據(jù)挖掘技術(shù)研究甲型流感病毒的宿主偏好性可實(shí)現(xiàn)對(duì)新發(fā)流感病毒的宿主偏好作出預(yù)測(cè),從而對(duì)人類公共健康發(fā)出預(yù)警提高防控效率。數(shù)據(jù)挖掘的各項(xiàng)技術(shù)已經(jīng)在眾多的領(lǐng)域取得了成功的應(yīng)用[3,4]。本文將利用決策樹展開對(duì)甲型流感病毒蛋白宿主偏好預(yù)測(cè)模型的研究,并通過(guò)關(guān)聯(lián)規(guī)則技術(shù)挖掘影響宿主偏好性的關(guān)鍵位點(diǎn)及位點(diǎn)上的氨基酸。

      2 基于決策樹的甲流病毒宿主偏好預(yù)測(cè)模型

      2.1 數(shù)據(jù)準(zhǔn)備

      針對(duì)禽類和人類這兩個(gè)生物種群,收集病毒的10種蛋白氨基酸序列,由10種蛋白聯(lián)合構(gòu)成的序列代表該病毒毒株。實(shí)驗(yàn)數(shù)據(jù)來(lái)源于NCBI流感病毒數(shù)據(jù)庫(kù)。在NCBI數(shù)據(jù)庫(kù)中獲取了198,611條禽類流感病毒蛋白質(zhì)序列和282,307條人類流感病毒蛋白質(zhì)序列。執(zhí)行數(shù)據(jù)清洗,對(duì)于原始數(shù)據(jù),除去有缺失值的序列。對(duì)于毒株序列,若某蛋白有缺失,則實(shí)驗(yàn)不考慮該條毒株序列。H5N1和H7N9是已經(jīng)確定可發(fā)生宿主跳躍感染人類的兩種病毒亞型,具有較高的代表性及研究?jī)r(jià)值,篩選出這兩類亞型的蛋白數(shù)據(jù)作為小數(shù)據(jù)集,其余數(shù)據(jù)作為大數(shù)據(jù)集。將數(shù)據(jù)集中各蛋白及毒株序列做多序列比對(duì),保證序列長(zhǎng)度和位點(diǎn)的統(tǒng)一。比對(duì)完成后,將氨基酸信息轉(zhuǎn)化為數(shù)值從而將病毒蛋白序列轉(zhuǎn)化為向量并采用Min-Max方法對(duì)數(shù)據(jù)進(jìn)行變換實(shí)現(xiàn)標(biāo)準(zhǔn)化。

      2.2 建立決策樹預(yù)測(cè)模型

      將標(biāo)準(zhǔn)化后的數(shù)據(jù)導(dǎo)入決策樹模型,來(lái)自于人類宿主的蛋白劃分為正樣本,來(lái)自于禽類宿主的蛋白劃分為負(fù)樣本。建立決策樹常用算法為ID3、C4.5、CART算法,三種算法的區(qū)別是度量標(biāo)準(zhǔn)不一樣,分別是信息增益、信息增益比率和Gini指數(shù)。本文采用CART算法建立決策樹。

      CART算法如下:1)計(jì)算訓(xùn)練集樣本D的Gini指數(shù),之后利用樣本中每一個(gè)特征Att及Att的每一個(gè)可能取值att,根據(jù)Att與att的大小關(guān)系將樣本分為兩類,并計(jì)算Gini(D,Att)值;2)找出使得Gini指數(shù)Gini(D,Att)最小的最優(yōu)劃分特征及取值,并判斷是否停止劃分,否則,輸出最優(yōu)劃分點(diǎn);3)遞歸調(diào)用1)、2);4)生成CART決策樹。

      在這些樹模型中,由蛋白質(zhì)序列的關(guān)鍵位點(diǎn)擔(dān)任決策節(jié)點(diǎn)對(duì)蛋白或病毒序列劃分。預(yù)測(cè)模型的所有訓(xùn)練均使用10倍交叉驗(yàn)證。在10倍驗(yàn)證交叉中,整個(gè)數(shù)據(jù)集被分為9個(gè)訓(xùn)練子集和1個(gè)測(cè)試子集。訓(xùn)練過(guò)程將使用9個(gè)子集訓(xùn)練,同時(shí)保留最后1個(gè)子集進(jìn)行測(cè)試,迭代10輪。最后數(shù)據(jù)集中的每個(gè)樣本都將被測(cè)試一次,以防止過(guò)度擬合問(wèn)題。

      2.3 決策樹分類模型結(jié)果分析

      利用CART算法及10倍交叉驗(yàn)證后將得到10個(gè)準(zhǔn)確率,即測(cè)試子集在模型上被分類正確的數(shù)量百分比,取其均值作為模型的準(zhǔn)確率。結(jié)果表明毒株的宿主偏好性決策樹預(yù)測(cè)模型在H5N1和H7N9亞型構(gòu)成的小數(shù)據(jù)集上準(zhǔn)確率達(dá)到95.17%,而在其它亞型構(gòu)成的大數(shù)據(jù)集上準(zhǔn)確率達(dá)到99.83%。而10個(gè)蛋白的平均準(zhǔn)確率在小數(shù)據(jù)集上為90.94%,大數(shù)據(jù)集上為98.86%。

      所有10種蛋白和毒株的決策樹預(yù)測(cè)模型都表現(xiàn)出了高預(yù)測(cè)性能。這10種流感病毒蛋白分類模型的高準(zhǔn)確率表明同種宿主的蛋白序列具有某些共性。分析大小數(shù)據(jù)集上的各蛋白及毒株準(zhǔn)確率,發(fā)現(xiàn)10種蛋白及毒株在大數(shù)據(jù)集上的分類模型準(zhǔn)確率要高于小數(shù)據(jù)集上的分類模型準(zhǔn)確率,表明在大數(shù)據(jù)集上的分類效果要優(yōu)于小數(shù)據(jù)集。這是由于實(shí)驗(yàn)定義的小數(shù)據(jù)集僅包含H5N1和H7N9兩種亞型病毒。這兩類亞型病毒原來(lái)只是在禽類中傳播,發(fā)生突變后獲得了感染人類的能力。結(jié)果表明了這兩類亞型病毒相較于其余亞型病毒區(qū)分度較小,與這兩類亞型病毒感染人類的高風(fēng)險(xiǎn)相一致。

      3 關(guān)聯(lián)規(guī)則挖掘

      關(guān)聯(lián)規(guī)則分析用于發(fā)現(xiàn)項(xiàng)目間相互關(guān)聯(lián)的規(guī)則。例如,規(guī)則可以挖掘經(jīng)常與其他產(chǎn)品同時(shí)購(gòu)買的特定產(chǎn)品。判定規(guī)則的條件是看支持度與置信度,規(guī)則的支持度是包含該規(guī)則的事務(wù)數(shù)量占比,而置信度是規(guī)則前后件同時(shí)出現(xiàn)的數(shù)量與規(guī)則前件出現(xiàn)的數(shù)量比值。置信度和支持度超過(guò)規(guī)定閾值的規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則。

      實(shí)驗(yàn)中每個(gè)蛋白質(zhì)序列代表一個(gè)交易T,并且其中各位點(diǎn)氨基酸例如A,S,T,K,M,V屬于項(xiàng)目集I。所有的序列構(gòu)成一個(gè)D集。Y集包括2個(gè)分類標(biāo)簽:禽類宿主,人類宿主。關(guān)聯(lián)規(guī)則是形式XY的概念,其中X I。如果既包含X也包含Y的規(guī)則在D中出現(xiàn),那么該規(guī)則在D中有支持度,并且這個(gè)支持度是該規(guī)則出現(xiàn)的次數(shù)在D集中的比例。而置信度則是該規(guī)則在D中出現(xiàn)的次數(shù)與該規(guī)則前件X出現(xiàn)次數(shù)的比值。針對(duì)小數(shù)據(jù)集上的數(shù)據(jù)做關(guān)聯(lián)規(guī)則挖掘,尋找在突變導(dǎo)致宿主偏好改變過(guò)程中發(fā)揮作用的具體氨基酸位點(diǎn)。

      結(jié)果挖掘了一些影響宿主偏好性的氨基酸位點(diǎn),例如規(guī)則(HA_617=S人類)的支持度為1.337%,表明有1.337%的人類毒株在HA蛋白的617號(hào)位置是絲氨酸,置信度為100%則表明了所有617號(hào)位點(diǎn)是絲氨酸的序列其宿主都為人類。另有一條規(guī)則(PB2_471= M & PB2_487=V禽類)的支持度為8.546%,置信度為100%,表明有近十分之一的禽類病毒PB2蛋白在471號(hào)位點(diǎn)是甲硫氨酸以及487號(hào)位點(diǎn)是纈氨酸,并且具有這樣的位點(diǎn)特征的病毒在人類PB2蛋白中沒(méi)有出現(xiàn)過(guò)。

      4 結(jié)語(yǔ)

      本文利用數(shù)據(jù)挖掘計(jì)算技術(shù)針對(duì)甲型流感病毒的10種蛋白以及其聯(lián)合構(gòu)成的毒株序列構(gòu)建了決策樹分類預(yù)測(cè)模型,結(jié)果表明除了已經(jīng)被認(rèn)定的HA蛋白和PB2蛋白外,其余蛋白質(zhì)也表現(xiàn)出了對(duì)宿主偏好性的影響。同時(shí),針對(duì)毒株構(gòu)建的預(yù)測(cè)模型能夠預(yù)測(cè)新型流感病毒,確定其宿主偏好,為甲型流感的早期防控提供預(yù)警。此外研究針對(duì)甲型流感病毒的10種蛋白及其宿主偏好挖掘關(guān)聯(lián)規(guī)則,找到了一些重要的位點(diǎn),分析這些特定位點(diǎn)上的氨基酸,發(fā)現(xiàn)它們?cè)诓煌拗鏖g差異顯著,這些位點(diǎn)將對(duì)研究甲型流感的跨種傳播研究提供一些線索。

      參考文獻(xiàn)

      [1]陳浦言.獸醫(yī)傳染病學(xué)(第五版)[M].北京:中國(guó)農(nóng)業(yè)出版社,2006.

      [2]徐慧琳,張文彤,趙耐青,姜慶五.影響H5N1甲型流感病毒對(duì)哺乳動(dòng)物毒力變異的HA序列關(guān)鍵位點(diǎn)研究[J].復(fù)旦學(xué)報(bào)(醫(yī)學(xué)版),2006,33(5):473-473.

      [3]王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,32(2):246-252.

      [4]張引,陳敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計(jì)算機(jī)研究與發(fā)展,2013,50(s2):216-233.

      Abstract:In this study, the application of data mining in predicting the host preference of influenza A virus is investigated. The CART decision tree algorithm was used to construct the host preference prediction model of each protein of influenza A virus and the whole strain, and the key amino acid positions affecting the host preference of influenza A virus were further digged by association analysis, which can provide theoretical support for the study of cross-species transmission of influenza A virus and early warning on public health.

      Key words:influenza a virus; data mining; CART decision tree; association rule

      猜你喜歡
      關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于Apriori算法的高校學(xué)生成績(jī)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
      基于關(guān)聯(lián)規(guī)則和時(shí)間閾值算法的5G基站部署研究
      關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
      數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評(píng)價(jià)體系中的應(yīng)用
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
      基于關(guān)聯(lián)規(guī)則的計(jì)算機(jī)入侵檢測(cè)方法
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      兴国县| 泽普县| 阿拉尔市| 枣庄市| 陕西省| 潜江市| 洛阳市| 昌乐县| 突泉县| 玉屏| 三都| 乌审旗| 龙江县| 武宣县| 连平县| 蒙城县| 平塘县| 南部县| 淮北市| 宜都市| 昭平县| 柏乡县| 祁阳县| 北海市| 灵石县| 嘉善县| 桓台县| 泰宁县| 宝鸡市| 安国市| 时尚| 上栗县| 永平县| 龙井市| 布尔津县| 深州市| 托克托县| 栾川县| 长海县| 内黄县| 塔河县|