基于Lasso回歸模型的遺傳性疾病與遺傳位點關(guān)聯(lián)分析

2019-03-10 13:49楊師華

數(shù)學學習與研究 2019年1期

楊師華

【摘要】致病位點的查找定位對研究遺傳性疾病有非常重要的意義，其中對多性狀標簽組合關(guān)聯(lián)分析問題的方法研究比較缺乏.本文構(gòu)建的基于Lasso回歸的遺傳位點關(guān)聯(lián)分析模型，不僅可以解決多標簽關(guān)聯(lián)分析問題，還兼顧了傳統(tǒng)統(tǒng)計檢驗方法的準確性和機器學習方法的高效性.

【關(guān)鍵詞】關(guān)聯(lián)分析;Lasso回歸;特征選取;多標簽;遺傳位點

遺傳性疾病的關(guān)聯(lián)遺傳位點探測是生物信息主要研究的問題之一，它對遺傳疾病的研究、診斷和藥物研發(fā)等均起到至關(guān)重要的作用.遺傳性疾病與遺傳位點的關(guān)聯(lián)分析是典型的“高維低樣本”問題，人類全基因組中具有代表性的遺傳位點至少上萬個，然而與特定性狀相關(guān)的樣本往往只有幾百到幾千個.如何根據(jù)較少的樣本數(shù)據(jù)在上萬個遺傳位點信息當中選取與性狀關(guān)聯(lián)的少數(shù)位點，是本文主要解決的問題.

全基因組關(guān)聯(lián)分析普遍采用統(tǒng)計分析的方法.若檢驗單一位點在病例組和對照組的關(guān)聯(lián)作用，多采用卡方檢驗和讓步比，并通過多重假設(shè)檢驗進一步篩選[1].也有結(jié)合主成分分析構(gòu)建位點與表現(xiàn)型之間的邏輯回歸模型進行位點篩選，該模型靈活度更高，并且還能同時分析多個位點或其他影響因素的共同關(guān)聯(lián)作用[2].復雜疾病由于是多種因素多個位點通過錯綜復雜的相互作用導致的，因此，其關(guān)聯(lián)分析多采用隨機森林等機器學習方法[3].上述方法基本只能用于單標簽問題，即針對單一性狀的位點關(guān)聯(lián)分析.但有些研究需要分析多個性狀共同相關(guān)的位點，因此，需要能用于多標簽問題的關(guān)聯(lián)分析.本文旨在構(gòu)建能高效解決多標簽關(guān)聯(lián)分析問題的模型，分析數(shù)據(jù)來源于2016年全國研究生數(shù)學建模競賽B題“具有遺傳性疾病和性狀的遺傳位點分析”.

一、方法與模型描述

數(shù)據(jù)中給出了1 000個樣本的10個相關(guān)聯(lián)性狀的信息及其相應的9 445個位點的編碼信息，需要找出與10個性狀共同關(guān)聯(lián)的一個或幾個位點.其中，每個性狀的表現(xiàn)型用0或1表示，0為沒有該性狀，1為具有該性狀，則一個樣本的表現(xiàn)型信息可用十位的01組合表示，如0000000101.遺傳位點信息由基因型表示，基因型分三種：XX、XY和YY，本文分別用0，1和2表示，該編碼也代表了突變等位基因Y的個數(shù).通過對原始信息的編碼轉(zhuǎn)換，就能獲得計算機可以識別和計算的數(shù)據(jù)結(jié)構(gòu).

原始的樣本表現(xiàn)型由10個0或1的性狀編碼組成，若把這10個性狀編碼作為訓練標簽，則對應多標簽問題.本文把樣本的表現(xiàn)型編碼視為一個10位長的二進制編碼，再把二進制編碼表示為十進制編碼，如0000000101的十進制編碼為5，則每種性狀組合對應一個十進制編碼，這樣就能把多標簽問題轉(zhuǎn)換為單標簽問題.此外，由于9 445個位點信息中含有較多的冗余位點，所以需要剔除無效位點從而降低維度.在1 000個樣本中十進制編碼為0（即完全正常）的樣本有300個，把非完全正常的樣本設(shè)為患病組，完全正常的設(shè)為對照組，如果一個位點的基因型分布在患病組和對照組之間高度相似，說明該位點對患病與否影響不大，可視為無效位點.通過計算位點基因型分布的余弦相似度，去除相似度大于等于0.99的位點，最終得到244個有效位點.

接下來構(gòu)建關(guān)于有效位點和十進制標簽的Lasso回歸模型.Lasso回歸是Tibshirani[4]提出的一種收縮估計方法，其基本思想是在回歸系數(shù)的絕對值之和小于某個常數(shù)的約束條件下，使得殘差平方和最小化.傳統(tǒng)的逐步回歸分析和AIC準則和BIC準則進行最優(yōu)模型選擇時，計算過程不但存在隨機誤差，而且會漏掉重要的變量，使得模型誤差很大.Lasso的主要優(yōu)點在于可以估計模型參數(shù)的同時選擇特征變量，還保持良好的解釋性能[5].Lasso回歸模型具體描述如下：

目前解決Lasso問題最常用的算法是最小角回歸算法，它尋求歸一化正則路徑是一種殘差擬合的過程，在每次回歸的基礎(chǔ)上選擇新的變量，這樣就使得每次擬合的殘差不斷縮小.這種計算殘差的方法把標簽變量和已經(jīng)選好的變量相互結(jié)合，因此，尋找Lasso方程最優(yōu)解的過程也是特征選擇的過程.

二、結(jié)果分析與總結(jié)

上述模型算法通過R軟件實現(xiàn)并計算.當約束值λ足夠大時，路徑中將包含所有的特征變量，因此，選其接近1時所包含的位點，結(jié)果為：rs2273298，rs7543405，rs7368252，rs4646092，rs12145450，rs1883567，rs2143810，rs1541318，rs4391636，rs3013045，rs9659647，rs7555715，rs11121557和rs7522344.此結(jié)果與利用一般統(tǒng)計檢驗方法得到的結(jié)果基本一致，說明模型具有可靠性，同時能在保證準確性的前提下盡可能多地找出相關(guān)位點，說明它比一般統(tǒng)計方法效率更高.

【參考文獻】

[1]凃欣，石立松，汪樊，等.全基因組關(guān)聯(lián)分析的進展與反思[J].生理科學進展，2010（2）：87-94.

[2]Yi H，Wo H，Zhao Y，et al.Comparison of dimension reduction-based logistic regression models for case-control genome-wide association study：principal components analysis vs.partial least squares[J].The Journal of Biomedical Research，2015（4）：298-307.

[3]鄒亮，黃瓊，李驁，等.基于隨機森林和富集分析的阿爾茨海默癥GWA研究[J].中國科學：生命科學，2012（8）：639-647.

[4]Tibshirani R.Regression Shrinkage and Selection via the Lasso[J].Journal of the Royal Statistical Society，2011（3）：267-288.

[5]胡一睿，曲榮華，徐佳靜.Lasso與其他變量選擇方法的模擬比較[EB/OL].北京：中國科技論文在線[2010-09-07].http：∥www.paper.edu.cn/releasepaper/content/201009-150.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于Lasso回歸模型的遺傳性疾病與遺傳位點關(guān)聯(lián)分析