• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      擬南芥突變基因位置的Linux大數(shù)據(jù)分析

      2019-06-18 13:36:24甘秋云
      唐山師范學院學報 2019年3期
      關鍵詞:突變型擬南芥染色體

      甘秋云

      ?

      擬南芥突變基因位置的Linux大數(shù)據(jù)分析

      甘秋云

      (福州理工學院 文理學院,福建 福州 350014)

      以擬南芥為實例,通過野生型和突變型雜交,對二代群體DNA進行深度測序,獲取海量DNA數(shù)據(jù)。以SNP為分子標記,利用生物信息學方法對測序數(shù)據(jù)進行單核苷酸多態(tài)性(SNP)檢測。通過置換測驗對基因組區(qū)段內的等位基因頻率進行差異顯著分析,并利用生物統(tǒng)計學方法對具有顯著性差異的數(shù)據(jù)進行顯著性檢驗,預估擬南芥的突變位點的位置在1號染色體的末端位置,范圍為2 853 000~2 898 000。

      基因突變;基因定位;等位基因;高通量測序

      突變是發(fā)生于DNA水平上的一種永久性變化,可能發(fā)生堿基對組成或排列順序的改變。對突變的研究不僅為育種工作提供必要的實驗材料,對科學研究和生產(chǎn)也有重要意義[1,2,3]。本文結合計算機算法,生物統(tǒng)計學和數(shù)學的計算方法,對測序數(shù)據(jù)進行分析、處理,預測突變基因在染色體上的位置。

      1 數(shù)據(jù)來源與技術方法

      1.1 數(shù)據(jù)

      以擬南芥為研究對象,將群體野生型和突變型進行雜交,對二代群體DNA進行深度測序,獲得29 264 012條序列讀段,長度為76 bp。過濾、篩選后獲得27 215 530條,平均長度為76 bp的序列讀段。由擬南芥數(shù)據(jù)庫TAIR[4]下載擬南芥參考基因序列,利用SOAPaligner軟件,將上述讀段與參考基因組序列進行對比,檢測單核苷酸多態(tài)性(SNP),最終獲得全基因組范圍內SNP位點[4]。上述全基因組序列讀段作為定位突變基因的分析對象。

      1.2 樣品百分數(shù)△d計算

      采用不同的移動窗口,固定步長,分別在野生型和突變型兩個DNA池中,計算出相應窗口下的SNP位點的堿基個數(shù)y1與參考堿基一致的讀段的個數(shù)2,SNP位點的測序深度1和2。然后,通過公式(1)計算相應的基因頻率(野生型標記為“1”,突變型標記為“2”)。

      針對某些樣本容量較小的區(qū)間,在容量基礎加上一個常數(shù)(=50)。

      基因頻率相應寫為

      兩個樣本基因頻率的差值為

      通過△值的變化曲線圖,預測突變位點的位置。

      1.3 差異顯著分析

      對野生型和突變型的2個DNA池的樣品進行1 000次隨機分組,得到1 000組隨機的樣本文件。利用計算機算法計算1 000次隨機實驗中位于同一區(qū)間下的最大值,作為差異顯著性分析的數(shù)據(jù)來源。

      采用Aspin-Welch方法對預估的顯著區(qū)間數(shù)據(jù)進行顯著性檢驗,求出在總體顯著水平為5%時的的閾值P。若P值小于0.05,則認為當前數(shù)據(jù)差異是顯著的,找到差異顯著的區(qū)間在染色體上的位置,可初步判斷該位置可能存在一個突變位點或目標基因[4]。

      該檢驗中的臨界值由t表查出,自由度由

      確定。其中,

      以10 kb為移動步長,分別設置100 kb、200 kb、300 kb、400 kb的移動窗口,利用公式(2)分別計算野生型和突變型兩個樣本在不同染色體對應位點的基因頻率。根據(jù)計算結果,以染色體位置為橫坐標,△值大小為縱坐標,繪制全基因組范圍內的△值變化圖。

      2 結果與分析

      2.1 樣本百分比統(tǒng)計

      圖1是1號染色體在移動窗口為400 kb時的值曲線圖。從圖中明顯看到,在1號染色體末端出現(xiàn)了高峰區(qū)間。

      圖1 擬南芥野生型與突變型1號染色體在移動窗口400 kb下△d值曲線圖

      圖2分別是2、3、4、5號染色體在移動窗口為400 kb時值曲線圖。從圖中可見,2至5號染色體的值變化較小,曲線整體走勢較平緩。

      2.2 檢測突變位點

      根據(jù)1 000組隨機實驗得到的值,繪制出對應的分布圖,發(fā)現(xiàn)其分布情況滿足正態(tài)分布特點。

      表1 野生型和突變型顯著性分析數(shù)據(jù)

      抽取1號染色體末端位置上的100個△數(shù)據(jù)樣本,分析結果見表1。

      方差齊性檢驗結果為

      H0:σ1=σ2;HA:σ1≠σ2;α=0.05

      在顯著水平0.05的前提下,

      F=75.923,F(xiàn)0.05=1.25,F(xiàn)≠F0.05,

      方差不具齊性。

      Aspin-Welch檢驗結果為

      H0:μ1=μ2;HA:μ1≠μ2;α=0.05

      將數(shù)據(jù)帶入公式(4)、(6),得到的值為101.61,t值為3.03。利用=101.61時的t臨界值使用線性內插法求出t=1.984。

      由于t>t0.05,即p<0.05,所以在野生型和突變型兩個DNA池樣本在1號染色體末端位置出現(xiàn)的高峰區(qū)間具有顯著性差異,可以初步預測當前位置突變位點的位置。

      圖3是1號染色體的值曲線圖。

      (a)100 kb;(b)200 kb;(c)300 kb

      從圖3可以發(fā)現(xiàn),1號染色體在不同的移動窗口下都出現(xiàn)了高峰區(qū)間。隨著移動窗口的不同,樣本高峰值不同,在移動窗口為100 kb達到最大,為0.188 953。在200 kb、300 kb、400 kb的移動窗口下高峰值平均為0.17。但1號染色體的高峰區(qū)間均位于染色體末端。

      表2 1 000組隨機顯著實驗統(tǒng)計擬南芥染色體顯著區(qū)間(顯著水平=0.05)

      通過4次不同移動窗口的1 000組隨機實驗,得到如表2所示的位于1號染色體上的顯著區(qū)間的分布情況。從表2可以判斷,突變位點位于1號染色體的位置區(qū)間范圍為2 853 000 ~ 2 898 000。

      3 結論

      利用深度測序獲取擬南芥野生型和突變型雜交二代群體DNA數(shù)據(jù)。以SNP為分子標記,綜合運用計算機、數(shù)學、生物統(tǒng)計學等方法對SNP位點進行處理、分析,計算等位基因頻率并進行差異顯著分析。預測出了目標基因或突變位點的位置在1號染色體的末端,突變位點出現(xiàn)的區(qū)間位置范圍為2 853 000~2 898 000。

      [1] 張玲.基于全基因組測序及外顯子組測序的食管癌相關基因篩選及功能鑒定[D].太原:山西醫(yī)科大學,2015:1.

      [2] 李維,劉若余,馮艷青,李思,杜雪琴,謝海強,肖超能,林家棟.家兔UCP3基因SNP多態(tài)性及生物信息學分析[J].基因組學與應用生物學,2015,(10):2127-2133.

      [3] 王媛,韓如意,蘇玉貞,孫麗,張連民,王晨.人CITED4基因及蛋白的生物信息學分析[J].生物技術,2016,26(6): 566-573.

      [4] 甘秋云.利用深度測序定位擬南芥突變基因[D].福州:福建農(nóng)林大學,2011:14-18.

      Mapping of Arabidopsis Mutant Gene Based on Large Data Analysis of Linux

      GAN Qiu-yun

      (School of Arts and Sciences, Fuzhou Institute of Technology, Fuzhou 350014, China)

      In this paper, Arabidopsis thaliana is taken as an example to obtain massive DNA data by deep sequencing of DNA from the second generation population through wild-type and mutant hybridization. Single nucleotide polymorphism (SNP) detection of sequencing data was conducted by using bioinformatics methods and using SNP as a molecular marker. Significant differences in the frequency of alleles within the genome segment were analyzed by a displacement test. The data of significant differences were statistically tested by biostatistical methods to estimate the location of the mutation site of Arabidopsis thaliana.

      gene mutation; gene mapping; allele; high throughput sequencing

      TP399

      A

      1009-9115(2019)03-0060-04

      10.3969/j.issn.1009-9115.2019.03.017

      2017-09-27

      2019-03-04

      甘秋云(1986-),女,福建寧德人,碩士,講師,研究方向為計算機應用,數(shù)據(jù)挖掘,生物信息學。

      (責任編輯、校對:李春香)

      猜你喜歡
      突變型擬南芥染色體
      擬南芥:活得粗糙,才讓我有了上太空的資格
      多一條X染色體,壽命會更長
      科學之謎(2019年3期)2019-03-28 10:29:44
      為什么男性要有一條X染色體?
      科學之謎(2018年8期)2018-09-29 11:06:46
      尿黑酸對擬南芥酪氨酸降解缺陷突變體sscd1的影響
      兩種LED光源作為擬南芥生長光源的應用探究
      擬南芥干旱敏感突變體篩選及其干旱脅迫響應機制探究
      能忍的人壽命長
      再論高等植物染色體雜交
      表皮生長因子受體非突變型非小細胞肺癌分子靶治療有效1病例報道及相關文獻復習
      CD41-42突變型β地中海貧血重組載體pEGFP-C2-CD41-42的構建及其穩(wěn)定轉染HeLa細胞模型的建立
      武功县| 都匀市| 长兴县| 新源县| 田东县| 武定县| 扎赉特旗| 葫芦岛市| 炉霍县| 兴安县| 周口市| 阿合奇县| 彭阳县| 临武县| 特克斯县| 姚安县| 丰台区| 东至县| 新蔡县| 抚松县| 蓬莱市| 思茅市| 永胜县| 松桃| 加查县| 女性| 巢湖市| 平南县| 西乌| 谢通门县| 保定市| 平定县| 林西县| 平和县| 桃源县| 定日县| 阿合奇县| 岳池县| 沾益县| 揭阳市| 桐柏县|