• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于DNA變異的中國漢族人群脫發(fā)表型推斷及預測模型評估*

      2022-07-25 14:06:36薛思瑤李彩霞贠克明趙雯婷
      生物化學與生物物理進展 2022年7期
      關鍵詞:表型分類器關聯(lián)

      薛思瑤 李彩霞 贠克明 叢 斌 趙雯婷**

      (1)山西醫(yī)科大學法醫(yī)學院,太原 030001;2)公安部物證鑒定中心,現(xiàn)場物證溯源技術國家工程實驗室,法醫(yī)遺傳學公安部重點實驗室,北京 100038;3)河北醫(yī)科大學法醫(yī)學院,石家莊 050017)

      脫發(fā)問題是近年來社會各界關注的熱點問題,尤其在中青年人群中的發(fā)病率一直居高不下,對患者的心理、生活社交造成明顯影響。人類最常見的脫發(fā)形式是男性型脫發(fā)(male pattern baldness,MPB),其特點是頭皮上依賴雄激素的進行性脫發(fā)表現(xiàn)。MPB 嚴重程度與年齡、脫發(fā)部位等密切相關,發(fā)病率隨年齡以平均每10 年提高10%的增速增長[1],其在歐洲男性中的患病率很高,可達到80%[2],而一項針對3 519 名上海男性脫發(fā)情況的研究顯示脫發(fā)患病率在19.9%左右[3]。有多項研究表明,與高加索人相比,中國人、日本人和非裔美國人的患病率較低[4]。

      人群遺傳學研究顯示,MPB 是一種高度遺傳的多基因疾?。?]。早期針對雙胞胎的研究表明[6],MPB 的遺傳力約為81%;Liu 等[7]基于單核苷酸多態(tài)性(single nucleotide polymorphisms,SNPs)常見變異的分子遺傳學方法估計MPB 的遺傳力可達50%。近年來,隨著基因分型技術和DNA 測序技術的快速發(fā)展,尤其是全基因組關聯(lián)分析(genome-wide association study,GWAS)的應用,MPB 的遺傳學研究取得了突破性進展,歐洲人群GWAS 研究發(fā)現(xiàn)的MPB 顯著關聯(lián)SNP 位點已達1 000 個以上。比如,2017 年針對8 個獨立的歐洲血統(tǒng)人群隊列22 518 個樣本的薈萃分析[8]確定了63 個MPB 顯著關聯(lián)位點(6 個位于X 染色體上,57個位于常染色體上),同時揭示了脫發(fā)不是孤立的特征,而是可與許多其他人類表型具有相關性的,例如前列腺癌和神經(jīng)退行性疾病等。迄今人群規(guī)模最大的MPB 遺傳分析來自2018 年Ⅴisscher等[9]對UK Biobank 205 327 個歐洲男性的研究,通過GWAS 關聯(lián)出了624 個近獨立的位點(598 個位于常染色體上,26個位于X染色體上)。同年一項針對7 萬歐洲人群的GWAS 研究關聯(lián)出了71 個獨立遺傳位點[10],可解釋總遺傳力的38%??梢?,MPB 雖然是多基因復雜表型,但與身高等表型相比,可以用相對較少的SNP 來解釋較大比例的遺傳力。因此,通過SNP 位點建立準確性較高的MPB遺傳預測模型是可行的。

      已有的MPB 遺傳預測模型大多采用了邏輯回歸算法。Hagenaars等[11]使用287個SNP位點建立多元邏輯回歸模型,重度脫發(fā)的AUC(ROC 曲線下方的面積大小,area under curve)為0.78,但輕度脫發(fā)和中度脫發(fā)的AUC僅能達到0.68 和0.61。Liu 等[7]針對2 725 個德國和荷蘭男性的研究嘗試建立了25 個SNP 的邏輯回歸模型,AUC=0.74。Marcińska等[12]使用305個50歲及以上的歐洲人群樣本構建了20 個SNP 的模型,對脫發(fā)的遺傳解釋力為35%,AUC=0.86。

      與歐洲人群MPB 的遺傳預測研究相比,針對中國人群的研究報道相對較少。在本實驗室的前期研究中,潘思宇等[13]針對中國的歐亞混合人群建立了兩種MPB 預測模型,一種以年齡、BMⅠ和25個SNP為預測因子,AUC=0.82;另一種是以年齡、BMⅠ和68 個SNP 為預測因子,AUC=0.89。這兩種預測模型雖然展現(xiàn)出良好性能,但在僅將年齡作為預測因子的情況下AUC值就可以達到0.77??梢娫撃P湍挲g依賴性過強,SNP的獨立預測能力有待提高。

      本研究選取了近十余年發(fā)表的關于MPB 研究的16 篇文獻中486 個歐洲人群關聯(lián)SNP 位點[7-8,10-12,14-24],在312名中國漢族人群樣本中進行關聯(lián)驗證分析,并基于篩選后的具有顯著關聯(lián)性的SNP位點建立了MPB邏輯回歸預測模型,同時對k近鄰分類器(k-nearest neighbor classifier)、隨機森林(random forest)、支持向量機(support vector machine,SⅤM)等常見的分類器模型[25]在MPB遺傳預測中的性能進行了比對評估,力求找到MPB預測準確性最高的建模方法。

      1 材料與方法

      1.1 男性型脫發(fā)表型的獲取及分類標準

      Hamilton-Norwood(H-N)脫發(fā)分級標準[1]根據(jù)發(fā)際線后移程度以及頭頂部毛發(fā)稀疏程度將MPB劃分為不脫發(fā)(Ⅰ類)、6種MPB主類型(ⅠⅠ至ⅤⅠⅠ類)和5 種亞類型(ⅠⅠA 至ⅤA 以及ⅠⅠⅠvertex)。參照該標準,本研究將表型分為兩組(圖1):a.MPB 表型組,即頭頂部可見明顯脫發(fā)且發(fā)際線嚴重后移(Ⅳ、Ⅳa、Ⅴ、Ⅴa、Ⅵ和Ⅶ);b.對照表型組,即完全沒有脫發(fā)或輕微發(fā)際線后移(Ⅰ和Ⅱ)。表型讀取時,由3名評分者同時觀看照片,并獨立對每一位志愿者的MPB 等級進行評級,排除表型判斷有困難的樣本,以3個評分者對每個志愿者分級結果的眾數(shù)作為最終的MPB等級。

      1.2 樣本及DNA提取

      按照1.1的表型分組標準,本研究共收集了中國不同地域的漢族男性個體312 例,除7 例樣本為南方漢族(四川6、江西1)外,其余均為北方漢族(山東4、山西296、河南5)群體,其中MPB表型組143 例,對照表型組169 例,且所有研究個體無內分泌功能障礙類疾病、未接受過毛發(fā)相關治療。考慮到年齡因素對MPB的影響[12],MPB表型組年齡在28~69歲之間,平均年齡約53,而對照表型組選取了高齡不脫發(fā)的志愿者,年齡在55 歲以上,平均年齡59 歲左右。詳細組內信息和外觀概覽見表1 和圖1。使用Canon EOS 5D Mark ⅠⅠ(佳能,日本)高清照相機分別采集志愿者頭部左側、正面及右側3張二維照片。本研究通過公安部物證鑒定中心倫理委員會審查,所有參與者均簽署了書面知情同意書。

      1.3 基因分型及質量控制

      使用Ⅰllumina HiSeq X Ten測序平臺(Ⅰllumina,美國)對樣本進行3X 低深度全基因組測序,每個樣本得到平均10G Raw data。對經(jīng)過變異檢測(variant calling)處理后的數(shù)據(jù),使用本實驗室中國人群低深度測序2 510 份樣本進行基因填補。使用PLⅠNK v1.9[26]對SNP進行質量控制,包括分型成功率(call rate)>0.97,哈迪溫伯格平衡(Hardy-Weinberg equilibrium,HWE)P>0.000 1和次等位基因頻率(minor allele frequency,MAF)>0.01。個體樣本質量控制包括性別檢查,親緣關系檢測及雜合性判斷。以千人基因組數(shù)據(jù)第三階段(1000 Genomes Project Phase 3)數(shù)據(jù)作為參考基因組,使用ⅠMPUTE[27]對常染色體進行基因填補并過濾填補質量分數(shù)小于0.6 的SNP,并再次重復上面質量控制標準,最終共獲得20 681 872個SNP位點。

      Table 1 Sample information

      Fig.1 Diagram of MPB

      1.4 統(tǒng)計分析

      1.4.1 遺傳關聯(lián)分析

      本研究選用基于歐洲人群關聯(lián)出的486個SNP位點,均通過了質量控制,詳細位點信息見附件表S1。使用Plink v1.9 軟件(哈佛大學,波士頓,馬薩諸塞州,美國) 分別進行了一般線性回歸(general linear model,GLM)和二元邏輯回歸分析,測試486 個SNP 與MPB 的相關性?;蛐偷馁x值為加性模型,假設個體攜帶的次等位基因的數(shù)量與表型特征有累積效應。估計了所有SNP 的優(yōu)勢比(odds ratio,OR)、相應的95%可信區(qū)間(confidence interval,CⅠ)和P值。將P<0.05 認為在關聯(lián)分析中具有統(tǒng)計學意義。同時通過將所獲得的OR與OR=1 時相比,從而估計脫發(fā)風險增加倍數(shù)。使用wANNOⅤAR[28]對與MPB 相關性最高的前20 個SNP 進行相關基因區(qū)域識別。多重假設檢驗校正后沒有達到顯著關聯(lián)性的位點,故而在本研究中沒有應用多重假設檢驗的校正。

      1.4.2 預測建模

      將在關聯(lián)分析中具有統(tǒng)計學意義的SNP 位點作為建立預測模型的初始位點集合。首先對數(shù)據(jù)進行預處理,先將因變量的編碼分為“1”(MPB 表型)和“0”(對照表型),再依據(jù)次要等位基因數(shù)目對SNP基因型進行編碼:具有2個次要等位基因編碼為“2”,只有1 個次要等位基因編碼為“1”,不含次要等位基因編碼為“0”。然后,采用兩種方法對位點進行篩選,一種是基于R 軟件STEP 函數(shù)對AⅠC信息標準進行逐步分析,另一種是通過R軟件glmnet包建立Lasso回歸模型,從而對SNP預測因子進行最終選擇和排序。

      邏輯回歸適用于二值響應變量(即0和1),故選用二元邏輯回歸對預測模型進行訓練。模型假設因變量服從二項分布,模型的擬合形式為:

      由于本研究樣本量較小,采用十折交叉驗證法來防止過度擬合。將MPB 的預測概率與觀察到的MPB狀態(tài)進行比較,將AUC作為預測準確性的總體衡量標準。AUC值的范圍從0.5 到1.0,0.5 表示隨機預測,1.0 表示完全準確的預測。如果預測概率>0.5,則定義受試者為MPB,否則為不脫發(fā)。使用混淆矩陣比較預測和觀察的脫發(fā)狀態(tài),并得出靈敏度和特異值,兩者的范圍都在0 到1 之間。所有候選SNP 分析和預測分析都在R v4.0.2(http://www.r-project.org/)中進行。

      1.4.3 多模型對比評估

      在R 軟件中分別對k 近鄰分類器、隨機森林、支持向量機3 種機器學習算法進行建模-驗證,獲得不同模型的預測準確性從而對比模型的預測性能。建模過程中使用的R 包主要包括class 包、kknn 包、randomForest 包、e1027 包等。每種機器學習算法共運行10 次,求其平均值。對于二分類任務,可將驗證樣本的真實情況作為金標準,對所有驗證樣本的模型分類結果和金標準結果分別計數(shù),從而獲得分類器性能混淆矩陣。分別計算模型的正確率、敏感度、特異度、陽性預測值、陰性預測值以及五折交叉驗證的預測準確性。以上分類器性能衡量標準的取值范圍均為0~1,值越大,表示分類性能越高。

      2 結果與分析

      2.1 遺傳關聯(lián)分析結果

      通過對312 個樣本的486 個SNP 進行關聯(lián)分析,發(fā)現(xiàn)174 個SNP 與MPB 顯著相關,相關性最顯著的20 個見表2。在與MPB 相關的SNP 中,位于chr20 上的位點最多,有145 個,chr5 和chr6 上各有6個SNP,chr1上有4個SNP,chr9和chr10上各 有3 個SNP,chr2 上 有2 個SNP,chr3、chr7、chr8、chr15、chr19 上各有1 個SNP。與前20 個顯著位點有關的基因分別為EBF1、TFAP2C、PAX1以 及RUNX3。位 于EBF1 的rs17643057 在chr5 上的分布具有最高的統(tǒng)計學意義(邏輯回歸關聯(lián)分析OR=0.479,95%CI=0.321~0.714,P=3.42×10-4)。值得注意的是,當應用一般線性回歸關聯(lián)分析時,前9個SNP的顯著性更高。據(jù)估計,攜帶rs985546-C等位基因的男性患MPB 的風險是攜帶T 等位基因男性的3.4 倍。從OR來看,其余3 個與MPB 易感性 相 關 最 顯 著 的SNP 是rs17643057-G (chr5)、rs1422798-G(chr5)和rs6113382-A(Chr20),使MPB的風險分別增加2.1、2.0和1.9倍。

      Table 2 Top 20 SNPs most significantly associated with MPB in Han Chinese (P<0.05)

      2.2 位點篩選

      逐步回歸不僅可以從備選因子中篩選出最終預測變量,還可以防止模型過度擬合。本研究通過雙向逐步回歸的方法,根據(jù)提前設定的赤池信息準則(Akaike information criterion,AⅠC),將直接納入模型的174 個MPB 相關SNP 精簡至22 個SNP 用于下游預測模型的建立。此時的AIC達到最小值,跨度區(qū)間為322.38~305.81(圖2)。每一預測因子的方差膨脹系數(shù)(variance inflation factor,ⅤⅠF)均小于10,不存在多重共線性問題。

      Lasso 回歸基于懲罰系數(shù)λ對備選因子進行篩選,隨著懲罰系數(shù)λ的增大,模型回歸系數(shù)β逐漸趨近于0,最終變?yōu)?(圖3a,b)。圖3a 左側虛線對應使模型估計誤差最小的λ,右側虛線對應使模型估計誤差在可接受范圍內的λ,根據(jù)最高效原則確定納入模型的最優(yōu)變量組合,最終篩選出25 個SNP位點。

      Fig.2 Characteristic variable screening based on stepwise regression

      Fig.3 Characteristic variable screening based on Lasso regression

      2.3 預測模型

      根據(jù)上述篩選得到的兩種位點集合,建立了兩個預測模型。兩模型所包含位點信息見表3,詳細位點信息見附件表S2。

      第一個模型包括通過逐步回歸分析篩選出的22 個SNP,該模型解釋了患MPB 總風險的48%(R2=0.48)。第二個模型包括通過Lasso回歸篩選出的25 個SNP,該模型解釋了患MPB 總風險的45%(R2=0.45)。MPB 預測模型具有總體預測精度,區(qū)分度指標分別為AUC=0.85 和AUC=0.84,ROC 曲線見圖4。應用50%的概率閾值,22-SNP 預測模型正確預測的總數(shù)為76%(236/309),有3 個不確定結果。然而,65%的概率閾值的正確預測降低到75%(234/311),有1 個不確定結果。同樣,應用50%的概率閾值,25-SNP 預測模型正確預測的總數(shù)為74%(228/309),有3 個不確定結果。而65%的概率閾值的正確預測保持不變,仍為74%(226/307),有5個不確定結果。兩模型均通過十折交叉驗證的方法進行驗證,驗證后的AUC分別為0.81和0.77。在加入年齡作為預測因子之一后,預測準確性分別提升到了80%(251/312)和81%(252/312),沒有不確定結果。相比較而言,通過Lasso回歸篩選出來的位點在十折交叉驗證過程中AUC有一定程度的下滑,且有個別位點存在多重共線性問題。22-SNP預測模型和25-SNP預測模型在18個SNP 上相同,僅存在4~7 個位點差異,但22-SNP預測模型在各項指標上均優(yōu)于25-SNP 預測模型。在加入年齡作為預測因子后,兩模型的預測準確率等各指標均有提升, 整體表現(xiàn)AUC均為0.89(表4)。

      Table 3 Information of 22-and 25-SNP used in predictive model building

      Fig.4 Receiver operating characteristic(ROC)curves for 22-SNP(left)and 25-SNP(right)MPB prediction models The ROC curves have sensitivity as the ordinate.

      Table 4 Prediction performance for MPB with different SNP-sets and factors

      2.4 分類器模型性能評估

      通過混淆矩陣獲得的分類器模型性能評價見表5。在3 種分類器模型中,最高的準確率是基于22-SNP 的支持向量機分類器模型,但也僅能到達68%,其預測效能和預測準確性遠不如邏輯回歸模型。

      Table 5 Performance comparison of k-NN,random forest and SVM for MPB prediction

      3 討 論

      本研究首次在中國漢族人群中進行較為系統(tǒng)的MPB 相關位點驗證分析,并初步篩選出與中國人群MPB 表型相關的SNP 位點,同時構建出性能較高的非年齡依賴MPB預測模型。

      從關聯(lián)分析結果來看,chr20 上的多個SNP 與MPB具有強關聯(lián)性,這說明chr20不僅是歐洲人群MPB的主要危險區(qū)域[29],也是中國漢族人群MPB的主要危險區(qū)域,這提示了在不同祖源人群中MPB 可能存在相似的遺傳機制。本研究中關聯(lián)性最顯著的SNP位點(rs17643057)所在基因區(qū)域已被歐洲研究證實與毛發(fā)生長特征有關[8],受早期B細胞因子1(early B cell factor 1,EBF1)調控。EBF1 是早期B 細胞發(fā)育和脂肪形成所必需的轉錄因子,動物研究表明其在小鼠成熟、生長的毛囊中表達。除EBF1外,在本研究前20個顯著關聯(lián)位點中,有75% 以上位點與PAX1 (paired Box 1,PAX1)這一基因區(qū)域有關。PAX1在皮膚、頭發(fā)和頭皮中表達,是典型的MPB易感位點[17,29]。這提示了將PAX1 作為中國漢族人群MPB 候選基因的必要性。值得一提的是,本研究關聯(lián)出的顯著位點(rs2180439)在另一項基于中國漢族人群的研究中[14]同樣被證實與脫發(fā)顯著相關,效應方向與本研究一致,超過了統(tǒng)計意義的關聯(lián)閾值(P≤3.13×10-3)。對于那些關聯(lián)性較低的SNP,本文暫時無法驗證SNP 是否與MPB 存在真實關聯(lián),需要進一步擴大樣本量來提升結果的準確性。

      為了進一步優(yōu)化MPB 相關SNP 位點集合以建立預測模型,本研究采用了兩種不同的位點篩選方法,并獲得22-SNP和25-SNP兩組位點集合。這樣做的目的一方面是為了比較兩種位點篩選辦法所獲得的SNP 對模型的預測性能所造成的差異,另一方面是為了防止模型過度擬合。若模型過度擬合,其在外部驗證中的表現(xiàn)就會變差。在僅使用SNP作為預測因子的情況下,基于22-SNP和25-SNP脫發(fā)的二分類預測模型均表現(xiàn)出了良好的性能。在加入年齡作為預測因子后,模型的預測性雖有小幅提升,但不能排除在高齡對照樣本的影響下,年齡所產(chǎn)生的虛假相關性。在實驗室前期研究成果中,不加入年齡作為預測因子的前提下,模型AUC低于0.7[13]。說明本研究所采用的表型組、對照組樣本篩選方法,顯著降低了年齡對關聯(lián)結果的影響,篩選出的位點對表型的影響效力更強,所解釋的遺傳力度相較前期研究的不足30%也有顯著提升。

      已有的MPB預測模型大多基于邏輯回歸算法,本研究進一步探索了不同分類器模型對MPB 表型的預測性能。從邏輯回歸、k近鄰分類器、隨機森林、SⅤM 這4 種常用分類器模型在本研究人群的運行結果來看,邏輯回歸模型具有明顯優(yōu)勢。

      4 結 論

      本研究通過將歐洲人群MPB 關聯(lián)位點在中國人群的驗證分析,為了解中國漢族人群MPB 的遺傳機制奠定了基礎。同時,所構建的預測模型,能夠在不依賴年齡作為預測因子的條件下,達到較為優(yōu)良的預測性能。在后續(xù)的研究工作中,通過擴大樣本量、采用全基因組關聯(lián)分析、引入表觀遺傳分析等方法,有望得到更優(yōu)的MPB 相關遺傳位點集合,建立更為精準的MPB 預測模型,應用到臨床醫(yī)學診斷和法庭科學領域中。

      附件PⅠBB_20210329_S1.pdf 見本文網(wǎng)絡版(http://www.pibb.ac.cn或http://www.cnki.net)。

      猜你喜歡
      表型分類器關聯(lián)
      “一帶一路”遞進,關聯(lián)民生更緊
      當代陜西(2019年15期)2019-09-02 01:52:00
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      奇趣搭配
      建蘭、寒蘭花表型分析
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      GABABR2基因遺傳變異與肥胖及代謝相關表型的關系
      慢性乙型肝炎患者HBV基因表型與血清學測定的臨床意義
      72例老年急性白血病免疫表型分析
      永济市| 锡林郭勒盟| 东明县| 余干县| 泗阳县| 临颍县| 宿松县| 淳安县| 临泽县| 安乡县| 固始县| 扬州市| 南江县| 郓城县| 昂仁县| 内丘县| 晋江市| 桃江县| 长沙市| 武鸣县| 峡江县| 扬中市| 久治县| 吴桥县| 苍山县| 怀来县| 滦南县| 扎赉特旗| 红桥区| 教育| 静乐县| 巴中市| 津市市| 景洪市| 吉木萨尔县| 鸡西市| 阿图什市| 盘山县| 全州县| 宣汉县| 潜山县|