• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于隱馬爾可夫模型的全外顯子測序拷貝數(shù)變異檢測算法研究

      2021-11-14 10:19:06趙阿曼徐凡丁劉文宇段君博
      中國生物醫(yī)學工程學報 2021年3期
      關(guān)鍵詞:拷貝數(shù)外顯子變異

      劉 妮 劉 晗 趙阿曼 徐凡丁 劉文宇 段君博*

      1(西安交通大學生命科學與技術(shù)學院,教育部生物醫(yī)學與信息工程重點實驗室,西安 710049)

      2(蘇州大學附屬兒童醫(yī)院檢驗科,江蘇 蘇州 215003)

      引言

      拷貝數(shù)變異(copy number variation,CNV)屬于基因組結(jié)構(gòu)變異,一般指長度大于1 kb的基因組大片段的拷貝數(shù)增加或減少[1]。有研究表明,CNV至少占到了人體基因組的12%[2],說明 CNV 不僅是基因組多態(tài)性的重要來源之一,而且相比單核苷酸多態(tài)性等基因變異類型,對人類健康的影響更為顯著。大量研究發(fā)現(xiàn),CNV與癌癥之間存在相關(guān)性[3-5]。因此,CNV的準確識別,對于癌癥等疾病的預防和治療具有重要的現(xiàn)實意義。

      高通量測序技術(shù)能一次并行對幾十萬到幾百萬條DNA分子進行序列測定,大大提高了測序的效率。目前CNV檢測算法大多都是基于高通量測序技術(shù)[6],該技術(shù)又可以被劃分為全外顯子組測序技術(shù)與全基因組測序技術(shù)。全外顯子組測序技術(shù)相較于全基因組測序技術(shù),價格更低、耗時更短,且對基因疾病的研究更為有效[7-8],所以在臨床診斷和學術(shù)研究中使用得更為廣泛。

      隱馬爾可夫模型(hidden Markov model,HMM)是比較經(jīng)典的機器學習模型,現(xiàn)已應用于語音識別、行為識別以及生物信息等領(lǐng)域[9]。HMM在拷貝數(shù)變異檢測中也得到廣泛應用,與其相關(guān)的算法眾多但各有優(yōu)劣,這使得在進行拷貝數(shù)變異檢測時算法的選擇成為一個重要問題。本研究選取5個具有代表性的基于HMM的CNV檢測算法,對其性能進行評估,并與實際情況進行結(jié)合,最終得出了不同應用場景的算法選取指南。

      1 方法

      首先,構(gòu)建仿真數(shù)據(jù)集與真實數(shù)據(jù)集;然后,選擇一些具有代表性的基于HMM的CNV檢測算法,從真陽性率(TPR)、假發(fā)現(xiàn)率(FDR)和計算性能等方面,對所選取的 CNV 檢測算法進行性能評估;最后,將被選擇的CNV 檢測算法的性能評估結(jié)果與實際應用場景結(jié)合,獲得可供應用的臨床使用指南。

      1.1 數(shù)據(jù)集

      本研究的數(shù)據(jù)集分為仿真的和真實的全外顯子數(shù)據(jù)集,以此來評估CNV檢測算法的性能。

      對于仿真數(shù)據(jù)集的構(gòu)建,首先選擇hg19版本的人體10號染色體作為仿真數(shù)據(jù)的參考基因序列,然后使用SimulateCNVs軟件進行拷貝數(shù)變異仿真[10]。在外顯子區(qū)域模擬了不同的覆蓋值(X2、X20、X40、X70和X100),每種覆蓋值都包含10個參考樣本和30個待測樣本,每個待測樣本隨機產(chǎn)生拷貝數(shù)變異,并且每個樣本中重復和缺失拷貝數(shù)的變異數(shù)量相同。對于覆蓋度為X100的樣本,額外生成兩組拷貝數(shù)變異密度不同的數(shù)據(jù)集。

      對于真實數(shù)據(jù)集,從NCBI數(shù)據(jù)庫中的SRP007198項目,下載來自5個個體的WES數(shù)據(jù)SRR292250、SRR303332、SRR303335、SRR303338和SRR303340。在Krumm等的研究中,這5個樣本共產(chǎn)生了32個拷貝數(shù)變異[11],將其作為金標準來評估CNV檢測工具的準確性。

      1.2 算法選擇

      為了幫助研究人員根據(jù)需求采用合適的基于HMM的CNV檢測方法,筆者選擇了具有代表性的算法。在此過程中,有兩個選擇算法的標準。首先是基于讀深度方法來檢測CNV,其次是基于HMM方法。此外,還需考慮算法文章的引用量以及源碼是否公開?;谶@些條件,確定了CNV檢測候選算法[12-15],但部分算法由于無法下載或版本過舊,故予以刪除,如M-HMM、EXCAVATOR、CoNVex和CONDEX等。最后,選擇了5種算法進行檢測,分別為XHMM[16]、ADTex[17]、CANOES[18]、ExomeCopy[19]和Exome Depth[20],基本信息如表1所示。

      表1 研究選取算法的相關(guān)信息Tab.1 Selected representative CNV calling methods

      就算法實現(xiàn)而言,XHMM主要采用主成分分析法對整個樣本組進行分析,根據(jù)它們的讀深信號變化來判斷樣本是否存在CNV;ADTex采用覆蓋深度對比法,一個樣本作為正常樣本,另一個則作為待測樣本,將兩個樣本的讀深信號化為一個個窗,對窗與窗的覆蓋深度進行對比,從而找出待測樣本的CNV;CANOES與XHMM相似,也是采用了主成分分析法;ExomeCopy采用基于GC、覆蓋度和窗負二項回歸模型,ExomeDepth則基于GC矯正的β-二項分布模型,這兩者的原理相似,都是經(jīng)過GC矯正,再將讀深信號轉(zhuǎn)化為Grange信號進行分析。

      1.3 評價指標

      為了更全面地評價CNV檢測工具,選擇真陽性率(TPR)、假發(fā)現(xiàn)率(FDR)、計算性能等作為評價指標。真陽性率TPR為正確檢測出的CNV的數(shù)量除以CNV總數(shù)量,是正確識別真陽性結(jié)果比例的統(tǒng)計量,F(xiàn)DR為誤檢測到的CNV的數(shù)量除以檢測出的CNV總數(shù)量,是正確識別假陽性結(jié)果比例的統(tǒng)計量。

      此外,為了更全面地評估這些算法,計算性能也是一個重要的指標,主要包括時間復雜度和空間復雜度。以算法運行時間來表征時間復雜度,以中央處理器和內(nèi)存的占用情況(即計算機資源使用量)來表征空間復雜度。時間復雜度和空間復雜度越低,則說明算法優(yōu)化得越好。

      2 結(jié)果

      根據(jù)評價指標,對5種CNV檢測工具的性能進行評價。

      2.1 仿真參數(shù)

      全外顯子組測序數(shù)據(jù)的覆蓋深度和CNV的密度可能會對CNV檢測結(jié)果有影響,故將二者作為仿真系數(shù),評測其對檢測性能的影響。

      2.1.1覆蓋深度

      覆蓋深度為測序得到的堿基總量與基因組大小的比值,如X20表示覆蓋深度為20。為了評估覆蓋深度對這些算法的CNV檢測性能的影響,在外顯子區(qū)域模擬了不同的覆蓋值,包含X2、X20、X40、X70和X100共5種情況,每種情況下生成的CNV的缺失和重復數(shù)均相同。使用5種選定的算法,進行CNV檢測。檢測結(jié)果的TPR和FDR如圖1所示,其中(a)和(b)分別顯示覆蓋深度對5種檢測算法TPR和FDR的影響。根據(jù)圖1(a)可以得到以下結(jié)論:一是隨著數(shù)據(jù)覆蓋深度的增加,這5種檢測算法的TPR先迅速增加,后保持穩(wěn)定;二是在低覆蓋深度下,ADTex和XHMM無法獲得CNV檢測結(jié)果;三是ADTex和XHMM的CNV檢測結(jié)果的TPR明顯遜于ExomeCopy、ExomeDepth和CAONES。根據(jù)圖1(b)可以得到以下結(jié)論:一是檢測算法的FDR隨著覆蓋深度的增加而減少;二是XHMM的FDR最高,其他4種算法的FDR相對接近。從上述結(jié)果可以看出,在實際應用中,100X的覆蓋深度對拷貝數(shù)變異檢測來說已經(jīng)足夠。

      圖1 覆蓋深度對5種檢測算法性能的影響;(a)對TPR的影響;(b)對FDR的影響Fig.1 The changes of tools′ performances with respect to the coverage. (a) The changes of these tools′ TPR; (b) The changes of these tools′ FDR

      2.1.2CNV密度

      為了評估外顯子密度對這些算法的CNV檢測性能的影響,基于X100覆蓋深度模擬了一系列CNV,每1000、500和330個外顯子組平均會產(chǎn)生一個CNV,其中重復和缺失CNV的數(shù)量相同。 然后,使用選定的算法從這些數(shù)據(jù)中檢測CNV, 計算出的TPR結(jié)果如圖2所示??梢钥闯?,隨著拷貝數(shù)變異密度的增加,XHMM、CANOES、ExomeDepth和ExomeCopy的TPR降低。ExomeDepth在高密度下有明顯的下降,而其他3種算法則是略有下降。 相反,ADTex的TPR隨外顯子組密度的增加而增加,表明其在高外顯子組密度下具有檢測CNV的優(yōu)勢。

      圖2 CNV密度對TPR的影響Fig.2 The changes of TPR with respect to the CNV density

      2.2 計算性能

      為了全面地評估這幾種CNV檢測算法,在對檢測算法進行了統(tǒng)計學評估之后,將計算性能也作為算法的評價標準之一。以運行時間和計算機資源使用量來表征計算性能,5種算法的結(jié)果如圖3所示。

      從圖3(a)可以看出,在相同條件下XHMM所花費時間明顯高于其他4種算法。ADTex和ExomeDepth所花費的時間大致相同,CANOES所花費時間高于前兩者,ExomeCopy所花費時間是最少的。

      圖3 不同算法的計算性能對比。(a)5種工具的運行時間;(b)5種工具計算資源消耗的對比Fig.3 Computational performance comparison of the five tools. (a) Running times of the five tools;(b) Computer resources consumption of the five tools

      從圖3(b)可以看出,在相同條件下XHMM占用了最高的電腦資源,CPU和內(nèi)存使用率最高,說明其算法優(yōu)化尚待提高。ADTex性能最佳、CPU和內(nèi)存使用率最低,CAONES具有較高的CPU使用率和非常低的內(nèi)存使用率,ExomeCopy的結(jié)果僅次于ADTex,ExomeDepth的CPU和內(nèi)存使用率都很高,研究人員可以根據(jù)自己的計算機配置選擇合適的算法。

      2.3 數(shù)據(jù)比較

      對真實數(shù)據(jù)進行拷貝數(shù)變異檢測,以Krumm等的研究結(jié)果[11]作為金標準,分別用5種工具進行檢測,并且比較測得拷貝數(shù)變異重復和缺失的能力,結(jié)果如圖4所示。從圖4(a)中可以看出,ADTex、ExomeCopy和ExomeDepth的準確率較高,其中ADTex為68.75%,與模擬數(shù)據(jù)的結(jié)果相似。ExomeCopy和ExomeDepth的精度分別為75%和81.25%,不如模擬數(shù)據(jù)的結(jié)果。其中,ExomeDepth的真實數(shù)據(jù)結(jié)果與高密度外顯子組的模擬數(shù)據(jù)相似。CAONES的精度為56.25%,明顯低于模擬數(shù)據(jù);XHMM的準確率最差為25%,結(jié)果也與模擬的數(shù)據(jù)相似。從圖4(b)可以看到,不同算法對缺失型和重復型的拷貝數(shù)變異檢測的能力不同。CAONES和ExomeCopy對于缺失型和重復型拷貝數(shù)變異的檢測水平基本相同。 ExomeDepth可以檢測更多重復型拷貝數(shù)變異,同時對于缺失型拷貝數(shù)變異也有著很高的檢測水平;ADTex具有最佳的缺失型拷貝數(shù)變異檢測水平,幾乎可以檢測到所有缺失型拷貝數(shù)變異,但對于重復型拷貝數(shù)變異的檢測水平較差;XHMM的性能最差,幾乎沒有檢測到缺失型拷貝數(shù)變異,而且重復型拷貝數(shù)變異檢測水平也很低。

      圖4 真實數(shù)據(jù)的檢測結(jié)果。(a)拷貝數(shù)變異檢測數(shù)量;(b)重復和缺失拷貝數(shù)變異檢測數(shù)量Fig.4 Detection results of real data. (a) Number of detected CNV. (b) Numbers of duplication and deletion CNV

      3 討論

      本研究對于5種算法在各種情況下的檢測性能進行了系統(tǒng)比較,作為發(fā)布時間最早的算法,XHMM在TPR、FDR以及真實數(shù)據(jù)的表現(xiàn)上不是很理想。ADTex在TPR上的表現(xiàn)較差,并且每次只能進行一對參考樣本和測試樣本的對比,這對參考樣本的質(zhì)量提出了要求,但如果研究人員的樣本數(shù)量受限,則可以選擇ADTex算法。

      CANOES開發(fā)年代較早,也沒有進行后續(xù)更新,但在拷貝數(shù)密度較高時的檢測效果比較好。ExomeCopy和ExomeDepth至今一直都有開發(fā)者進行更新與維護,因此能很好地適應測序技術(shù)的發(fā)展。ExomeCopy在檢測拷貝數(shù)變異時較為保守,在模擬數(shù)據(jù)中往往將拷貝數(shù)變異的長度大為壓縮;ExomeDepth在各種情況下表現(xiàn)都很突出,因此在沒有特殊需求時是研究人員的首選。

      綜上所述,筆者根據(jù)不同的應用場景選擇合適的CNV檢測工具,形成了推薦指南,如表2所示。

      表2 不同場景下CNV檢測算法的推薦指南Tab.2 The recommended tool for different requirements

      4 結(jié)論

      在本研究中,首先選擇了5種基于HMM的CNV檢測工具:ExomeDepth、ExomeCopy、XHMM、ADTex和CANOES;然后,對所選的5種CNV檢測工具的性能進行了綜合評價和比較;最后,通過對實驗結(jié)果的分析,根據(jù)實際的應用需求,分別推薦了合適的檢測工具。對多種CNV檢測進行比較,有助于CNV檢測算法的臨床應用,在一定程度上保證了CNV檢測結(jié)果的準確率與可靠性。但在一些方面仍有待改進,比如本研究只選取了5種基于HMM的CNV檢測算法進行比較,真實數(shù)據(jù)樣本量較少,等等。在未來的工作中,可以在這些方面進一步完善,進行更多樣化的比較。

      猜你喜歡
      拷貝數(shù)外顯子變異
      外顯子跳躍模式中組蛋白修飾的組合模式分析
      線粒體DNA拷貝數(shù)變異機制及疾病預測價值分析
      外顯子組測序助力產(chǎn)前診斷胎兒骨骼發(fā)育不良
      變異危機
      變異
      胎兒染色體組拷貝數(shù)變異與產(chǎn)前超聲異常的相關(guān)性分析
      外顯子組測序助力產(chǎn)前診斷胎兒骨骼發(fā)育不良
      變異的蚊子
      百科知識(2015年18期)2015-09-10 07:22:44
      DNA序列拷貝數(shù)變化決定黃瓜性別
      人類組成型和可變外顯子的密碼子偏性及聚類分析
      肃南| 桑植县| 高安市| 乡宁县| 吕梁市| 汶上县| 赣州市| 肥西县| 崇仁县| 德钦县| 义马市| 沂南县| 通榆县| 岳普湖县| 荔浦县| 于都县| 西林县| 搜索| 吐鲁番市| 渭源县| 抚松县| 元谋县| 新野县| 龙海市| 翁源县| 浦东新区| 莎车县| 青龙| 广宁县| 含山县| 南郑县| 卢龙县| 随州市| 西充县| 天柱县| 尚义县| 常德市| 岑巩县| 台东市| 金寨县| 大安市|