• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      機(jī)器學(xué)習(xí)在基因組學(xué)中的應(yīng)用

      2020-01-11 07:20:04張勁柏傅曉寧
      中國醫(yī)藥科學(xué) 2020年22期
      關(guān)鍵詞:基因組學(xué)機(jī)器監(jiān)督

      張勁柏 傅曉寧

      1.海軍軍醫(yī)大學(xué)藥學(xué)院天然藥物化學(xué)教研室,上海 200433;2.解放軍聯(lián)勤保障部隊(duì)天津康復(fù)療養(yǎng)中心醫(yī)護(hù)處,天津 300110

      機(jī)器學(xué)習(xí)(machine learning)指計(jì)算機(jī)無需明確的指令或程序設(shè)計(jì),可以通過特定算法和統(tǒng)計(jì)模型探索數(shù)據(jù),進(jìn)而發(fā)現(xiàn)數(shù)據(jù)隱藏特性的行為[1]。2006年以來,基于大數(shù)據(jù)分析的需求,以神經(jīng)網(wǎng)絡(luò)為代表機(jī)器學(xué)習(xí)策略在從復(fù)雜數(shù)據(jù)中提取特征和學(xué)習(xí)模式方面顯示出巨大的潛力,成為機(jī)器學(xué)習(xí)以及后來的深度學(xué)習(xí)理論的基礎(chǔ)。

      廣義上的基因組學(xué),也稱為功能基因組學(xué),旨在通過使用基因組規(guī)模的測定方法來確定生物體每個(gè)基因和功能之間的關(guān)系[2]?;蚪M學(xué)的應(yīng)用包括發(fā)現(xiàn)基因型和表型之間的關(guān)聯(lián)[3],發(fā)現(xiàn)用于患者分層的生物標(biāo)志物[4],預(yù)測基因的功能以及繪制具有生化活性的基因組區(qū)域[5]等。過去的十五年來,隨著單細(xì)胞測序和高通量篩選的技術(shù)和理論的不斷創(chuàng)新,使得獲取到的各種基因組學(xué)數(shù)據(jù)呈幾何式地爆炸增長,人工肉眼篩選或者傳統(tǒng)的數(shù)學(xué)統(tǒng)計(jì)方法已經(jīng)難以處理如此海量的數(shù)據(jù)[6],引入機(jī)器學(xué)習(xí)是探尋生命科學(xué)問題的應(yīng)有之義。

      1 機(jī)器學(xué)習(xí)算法概述

      機(jī)器學(xué)習(xí)算法根據(jù)數(shù)據(jù)對象有無現(xiàn)成的“標(biāo)記”(與檢測目標(biāo)相關(guān)的判定值),可以分為3大類——監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí),除此以外,在此基礎(chǔ)之上還逐漸衍生出半監(jiān)督強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)等新興學(xué)習(xí)算法,本文主要介紹前三種主流算法。

      1.1 監(jiān)督學(xué)習(xí)

      監(jiān)督學(xué)習(xí)使用提前設(shè)定好某種標(biāo)記的樣本(x1,y1)……(xn,yn)作為訓(xùn)練集,其中x表示輸入數(shù)據(jù),y表示數(shù)據(jù)對應(yīng)的標(biāo)簽,結(jié)合機(jī)器學(xué)習(xí)算法構(gòu)建一個(gè)數(shù)學(xué)模型,求解f(x)→y,直到模型在訓(xùn)練數(shù)據(jù)上獲得期望的精確度,并用該模型來預(yù)測未知樣本。

      在模型分型上,主要包括2種模型,一類是判別式模型,即對條件概率p(y|x)建立研究模型,常用于對目標(biāo)“是或否”的判斷,如垃圾郵件判定、論文查重等,主要的算法包括隨機(jī)森林、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、鄰近算法等;另一類是生成式模型,即對聯(lián)合概率p(x,y)建立研究模型,可以利用Softmax等算法優(yōu)化,實(shí)現(xiàn)對存在多種結(jié)果的可能性預(yù)判,如天氣預(yù)報(bào)、物體檢測等,主要的算法包括隱式馬爾科夫模型、樸素貝葉斯模型、高斯混合模型等。

      生成模型關(guān)注數(shù)據(jù)的生成方式并尋找數(shù)據(jù)分布模型,而判別模型關(guān)注數(shù)據(jù)的差異并尋找分類表面,因此生成模型更加通用,判別模型更加直接且針對性強(qiáng)。有時(shí)出于需要,可以將生成式模型轉(zhuǎn)換為判別式模型,但是不能將判別式模型轉(zhuǎn)化為生成式模型。

      1.2 無監(jiān)督學(xué)習(xí)

      無監(jiān)督學(xué)習(xí)主要處理沒有確定特性(標(biāo)記)的數(shù)據(jù),通過組內(nèi)相似程度分析,試圖提取數(shù)據(jù)中隱含的特征和規(guī)律,包括關(guān)聯(lián)、聚類、降維三種形式。這種分析方法被廣泛地用于細(xì)分或者預(yù)測可能的數(shù)據(jù)的分類(如細(xì)胞系分類、患者分型等),根據(jù)干預(yù)的方式分為不同的數(shù)據(jù)組。與監(jiān)督學(xué)習(xí)相比,監(jiān)督學(xué)習(xí)是按照給定的標(biāo)準(zhǔn)進(jìn)行學(xué)習(xí),而無監(jiān)督學(xué)習(xí)則是按照數(shù)據(jù)的相對標(biāo)準(zhǔn)進(jìn)行學(xué)習(xí)。

      在模型分型上,主要包括2種模型,一類是確定型算法,其目標(biāo)主要是對抽象后的數(shù)據(jù)進(jìn)行分類時(shí)盡量無損地保留原有數(shù)據(jù),一類是概率型算法,其目標(biāo)主要是針對數(shù)據(jù)中特性進(jìn)行方法和提純,舍棄不重要的特性。無監(jiān)督學(xué)習(xí)的算法有主成分分析和K均值聚類算法、高斯混合模型、遞歸神經(jīng)網(wǎng)絡(luò)等。

      1.3 強(qiáng)化學(xué)習(xí)

      強(qiáng)化學(xué)習(xí)的思想來源于心理學(xué)中經(jīng)典的行為主義理論,即并不需要過多的標(biāo)簽數(shù)據(jù),而是計(jì)算機(jī)在給定“環(huán)境”和“目標(biāo)”下,依據(jù)已有的標(biāo)簽數(shù)據(jù)進(jìn)行不斷試錯(cuò)和調(diào)整自身參數(shù),以實(shí)現(xiàn)預(yù)期利益最大化,而每次參數(shù)返回的評價(jià)結(jié)果會對下一次嘗試產(chǎn)生正向或者負(fù)向的影響。

      在模型分型上,主要包括2種模型,一類是基于值的算法,即通過給定的值函數(shù)不斷評估現(xiàn)狀和使用的策略, “走一步算一步”,直到現(xiàn)狀符合要求,適用于數(shù)據(jù)處理空間較小的模型。另一類是基于策略的算法,直接估計(jì)當(dāng)前環(huán)境可能存在的最優(yōu)總策略,并通過不斷隨機(jī)每一步的策略,對總策略進(jìn)行反饋和提升,適用于數(shù)據(jù)量較大的模型。強(qiáng)化學(xué)習(xí)的經(jīng)典算法有馬爾科夫決策過程、Q-learning、Policy Gradient等。

      2 機(jī)器學(xué)習(xí)的過程與案例

      2.1 數(shù)據(jù)預(yù)處理

      2.1.1 降維 基因和基因組數(shù)據(jù)通常表示為高緯度、小樣本量,可能會導(dǎo)致“維度詛咒”和“過度擬合”,即因?yàn)閰?shù)設(shè)置過多,原本的特殊值被當(dāng)做標(biāo)準(zhǔn),導(dǎo)致數(shù)據(jù)分類過于細(xì)化,相當(dāng)于無分類。因此,有必要有效減少數(shù)據(jù)量,進(jìn)而提高分類精度。

      2.1.2 特征(參數(shù))選擇 降維后數(shù)據(jù)進(jìn)行算法處理時(shí)通常會導(dǎo)致“黑盒效應(yīng)”,即輸入數(shù)據(jù)對應(yīng)的輸出結(jié)果在生物學(xué)上無法解釋。因此與其組合多個(gè)特征以減少維數(shù),倒不如篩選出最有信息價(jià)值的特征作為維數(shù)。目前特征選擇方法可分為包裝器,過濾器和嵌入式算法三類[7]。

      2.2 訓(xùn)練與測試

      2.2.1 數(shù)據(jù)分組 根據(jù)手中數(shù)據(jù)量,將所有處理后的數(shù)據(jù)混合匯總,再重新分為訓(xùn)練集、開發(fā)集、測試集,通常的比例為60%∶20%∶20%[8],其中訓(xùn)練集用于機(jī)器學(xué)習(xí)模型的迭代優(yōu)化,開發(fā)集用于對機(jī)器學(xué)習(xí)模型進(jìn)行驗(yàn)證,而測試集用于評價(jià)整體模型的效能,但是并不是所有的算法都需要將數(shù)據(jù)分成這三組,可以根據(jù)不同的算法進(jìn)行動態(tài)的調(diào)整[9]。

      2.2.2 模型建立與參數(shù)設(shè)置 根據(jù)使用的算法和基因組數(shù)據(jù)分布構(gòu)建機(jī)器學(xué)習(xí)模型、設(shè)定超參數(shù)(訓(xùn)練迭代中不發(fā)生變化的參數(shù))和初始化參數(shù)(隨機(jī)生成并在迭代中不斷發(fā)生變化的參數(shù)),迭代次數(shù)可以根據(jù)基因組數(shù)據(jù)的大小和算法精度的要求確定,一般設(shè)定在幾萬次到幾百萬次之間。

      2.2.3 迭代與訓(xùn)練 首先,運(yùn)用訓(xùn)練集對模型進(jìn)行迭代升級,爾后使用開發(fā)集進(jìn)行初步驗(yàn)證,如果訓(xùn)練集和開發(fā)集的結(jié)果存在較大差異,進(jìn)行超參數(shù)調(diào)試和模型改良,再重新使用訓(xùn)練集迭代訓(xùn)練,重復(fù)多次上述兩個(gè)步驟,直到模型在訓(xùn)練集和開發(fā)集取得較為滿意的結(jié)果,最后使用測試集進(jìn)行效果驗(yàn)證。

      2.3 應(yīng)用與開發(fā)

      2.3.1 監(jiān)督學(xué)習(xí)案例 在監(jiān)督學(xué)習(xí)中,目前比較流行方法是隨機(jī)森林算法和人工神經(jīng)網(wǎng)絡(luò),后者常常又被稱之為深度學(xué)習(xí)。 與其他監(jiān)督學(xué)習(xí)模型不同,它們專注于分支長度或多層學(xué)習(xí),并且在理論上和實(shí)踐上都能夠在許多情況下規(guī)避“維度詛咒”。

      Capper等[10]采用隨機(jī)森林算法實(shí)現(xiàn)了基于DNA甲基化判斷中樞神經(jīng)系統(tǒng)腫瘤的分類。訓(xùn)練采用的參照數(shù)據(jù)來自91個(gè)甲基化類別的2801例癌癥患者的全基因組信息,將91個(gè)甲基化類別作為“樹”特征,將一部分全基因組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),另一部分進(jìn)行驗(yàn)證,根據(jù)指標(biāo)重要性淘汰末尾并不斷迭代。模型訓(xùn)練完成后,使用1104例經(jīng)過人工核驗(yàn)的中樞神經(jīng)系統(tǒng)腫瘤數(shù)據(jù)進(jìn)行測試,發(fā)現(xiàn)僅有12%的患者存在誤診,而且還可以鑒定出新型罕見腫瘤。Guyon等[11]利用了基于遞歸特征消除的支持向量機(jī)方法,構(gòu)建了基因診斷和藥物發(fā)現(xiàn)的分類器,實(shí)現(xiàn)了利用DNA片段特征對癌癥進(jìn)行分類,在結(jié)腸癌數(shù)據(jù)庫中,在僅使用4個(gè)基因的情況下,癌癥分類準(zhǔn)確率為98% 。

      2.3.2 無監(jiān)督學(xué)習(xí)案例 基因數(shù)據(jù)通常具有很高的冗余性和稀疏性,因此常常使用無監(jiān)督學(xué)習(xí)的降維和聚類算法來摸索,比較常見的算法包括主成分分析和K均值聚類,前者通過正交變換提取數(shù)據(jù)中相互獨(dú)立、對全局影響大的變量,適合于分割線性序列(如染色體)的數(shù)據(jù),后者采用數(shù)據(jù)的空間分布距離作為相似性指標(biāo),試圖發(fā)現(xiàn)合適的橫斷面將數(shù)據(jù)互相分離,適合于判斷細(xì)胞分型。

      為了加快細(xì)胞數(shù)據(jù)集的分類預(yù)測的時(shí)間,從而更好更快地找到新的新的細(xì)胞分型或者數(shù)據(jù)內(nèi)容,Cho等[12]將研發(fā)了一種名為net-SNE的數(shù)據(jù)可視化工具,成功地將訓(xùn)練中的單細(xì)胞RNA測序數(shù)據(jù)2D/3D可視化的算法遷移到了新的細(xì)胞測序數(shù)據(jù)中,并且在不同數(shù)據(jù)集之間均取得了良好的效果,并且極大地減少了可視化包含數(shù)百萬個(gè)單元的大型數(shù)據(jù)集的時(shí)間。Deng等[13]針對大規(guī)模單細(xì)胞RNA-seq數(shù)據(jù)提出了基于遞歸神經(jīng)網(wǎng)絡(luò)的scScope算法,可以從數(shù)百個(gè)乃至數(shù)百萬個(gè)不同的單細(xì)胞基因表達(dá)譜中準(zhǔn)確而快速地識別細(xì)胞類型組成,比傳統(tǒng)算法快7倍。

      2.3.3 強(qiáng)化學(xué)習(xí)案例 強(qiáng)化學(xué)習(xí)主要運(yùn)用在信息論、博弈論、自動控制等領(lǐng)域,被用于解釋有限條件下的平衡態(tài)、設(shè)計(jì)推薦系統(tǒng)和機(jī)器人交互系統(tǒng),目前在基因組學(xué)的應(yīng)用的并不多,往往作為監(jiān)督學(xué)習(xí)算法的前置算法,用于計(jì)算篩選出足夠區(qū)分度的特征,單獨(dú)的使用強(qiáng)化學(xué)習(xí)的案例比較少。

      Zhu等[14]提出了一種基于強(qiáng)化學(xué)習(xí)的算法來建立蛋白質(zhì)相互作用網(wǎng)絡(luò),其中節(jié)點(diǎn)表示蛋白質(zhì),邊緣表示相互作用。在進(jìn)化過程中,各個(gè)節(jié)點(diǎn)之間分別配對結(jié)合并計(jì)算作用系數(shù),并通過系數(shù)大小決定了哪些預(yù)測的交互作用應(yīng)該得到強(qiáng)化,直到形成一個(gè)最優(yōu)網(wǎng)絡(luò),通過Pubmed下載前列腺癌的蛋白質(zhì)相互作用網(wǎng)絡(luò)公共數(shù)據(jù)庫來驗(yàn)證網(wǎng)絡(luò),實(shí)現(xiàn)了77.63%~84.40%的匹配率。

      3 未來機(jī)器學(xué)習(xí)在基因組學(xué)中的機(jī)遇與挑戰(zhàn)

      2019 年Nature雜志將機(jī)器學(xué)習(xí)評價(jià)為年度最值得期待的科技展望,機(jī)器學(xué)習(xí)作為一門不斷發(fā)展的學(xué)科,在疾病研究和精準(zhǔn)醫(yī)療等領(lǐng)域不斷有所建樹。

      疾病研究方面,遷移學(xué)習(xí)已成為機(jī)器學(xué)習(xí)中的一個(gè)新的研究熱點(diǎn)。與傳統(tǒng)機(jī)器學(xué)習(xí)方法的區(qū)別在于,它著重于借助在解決一個(gè)問題時(shí)所獲得的知識,并將其應(yīng)用在一個(gè)分布不同但相關(guān)的研究問題中。疾病研究領(lǐng)域中,Grayson等[15]在研究一種名為抗中性粒細(xì)胞胞漿抗體相關(guān)性血管炎的罕見疾病時(shí),使用來自1400多個(gè)其他研究的RNA測序數(shù)據(jù)訓(xùn)練了模型,并將該模型應(yīng)用于疾病,成功地揭示了該疾病與免疫和代謝功能相關(guān)的基因網(wǎng)絡(luò)。

      精準(zhǔn)醫(yī)療方面,基因多態(tài)性被認(rèn)為是導(dǎo)致疾病異質(zhì)性的重要原因[16],基因數(shù)據(jù)經(jīng)常被用來評價(jià)癌癥患者預(yù)后效果或者對于化療藥物的耐受性。Chen等開發(fā)一種基于網(wǎng)絡(luò)約束的支持向量機(jī)分類器——netSVM,利用基因表達(dá)譜和蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù)來識別生物標(biāo)志物,發(fā)現(xiàn)了許多新的乳腺癌樞紐基因,為乳腺癌轉(zhuǎn)移的機(jī)制提供新的見解。

      機(jī)器學(xué)習(xí)的應(yīng)用為基因組學(xué)的發(fā)展帶來了機(jī)遇的同時(shí),越來越多的人開始擔(dān)心機(jī)器學(xué)習(xí)獲取的大量基因數(shù)據(jù)可能帶來患者隱私泄露的問題,如何有效地對數(shù)據(jù)進(jìn)行清洗和匿名化,同時(shí)保持?jǐn)?shù)據(jù)的有效性,是一個(gè)值得深思的問題,除此以外,由于生物醫(yī)學(xué)數(shù)據(jù)的異質(zhì)性、高維度性、時(shí)間差異性等特點(diǎn),在充分利用生物醫(yī)學(xué)數(shù)據(jù)方面仍然存在許多挑戰(zhàn)。

      4 小結(jié)

      隨著檢測水平的不斷提升,基因組學(xué)能夠獲取的數(shù)據(jù)越來越復(fù)雜,需要合適的分析工具來提供支持,源自數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)算法尤其適用于基因組學(xué)。機(jī)器學(xué)習(xí)的算法按照原始數(shù)據(jù)有無標(biāo)簽可以分為監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)等各種類型。在基因組學(xué)領(lǐng)域,機(jī)器學(xué)習(xí)已經(jīng)可以在疾病預(yù)測、精準(zhǔn)醫(yī)療等方面發(fā)揮出重要的作用,但機(jī)器學(xué)習(xí)的應(yīng)用中還存在隱私泄露和有效數(shù)據(jù)標(biāo)記等問題。相信隨著機(jī)器學(xué)習(xí)技術(shù)的不斷更新,基因組學(xué)的前景會越來越廣闊。

      猜你喜歡
      基因組學(xué)機(jī)器監(jiān)督
      機(jī)器狗
      機(jī)器狗
      基于基因組學(xué)數(shù)據(jù)分析構(gòu)建腎上腺皮質(zhì)癌預(yù)后模型
      突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
      系統(tǒng)基因組學(xué)解碼反芻動物的演化
      科學(xué)(2020年2期)2020-08-24 07:56:44
      未來機(jī)器城
      電影(2018年8期)2018-09-21 08:00:06
      監(jiān)督見成效 舊貌換新顏
      夯實(shí)監(jiān)督之基
      無敵機(jī)器蛛
      營養(yǎng)基因組學(xué)——我們可以吃得更健康
      廉江市| 苏尼特左旗| 台南县| 天镇县| 霍邱县| 普宁市| 南昌市| 高雄县| 三原县| 阳东县| 大渡口区| 八宿县| 库车县| 兴安盟| 余江县| 辉县市| 唐海县| 固阳县| 镇坪县| 连城县| 漠河县| 霍林郭勒市| 大理市| 根河市| 宜都市| 岚皋县| 巴东县| 通州市| 兴国县| 彝良县| 伽师县| 龙井市| 英山县| 永嘉县| 浮山县| 邢台市| 兰溪市| 剑阁县| 广灵县| 齐齐哈尔市| 慈利县|