• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      擬南芥基因轉(zhuǎn)錄調(diào)控關(guān)系的計算方法研究

      2015-11-17 12:11:07于曉慶
      應(yīng)用技術(shù)學(xué)報 2015年1期
      關(guān)鍵詞:擬南芥調(diào)控樣本

      于曉慶

      (上海應(yīng)用技術(shù)學(xué)院理學(xué)院,上海 201418)

      擬南芥基因轉(zhuǎn)錄調(diào)控關(guān)系的計算方法研究

      于曉慶

      (上海應(yīng)用技術(shù)學(xué)院理學(xué)院,上海 201418)

      擬南芥是一種重要的模式植物,已被廣泛應(yīng)用于植物生物學(xué)研究.基于基因表達(dá)譜和序列信息構(gòu)建了預(yù)測擬南芥基因調(diào)控關(guān)系的數(shù)學(xué)模型.通過支持向量機(jī)和夾克刀的測試,結(jié)果表明該方法在擬南芥基因調(diào)控關(guān)系的預(yù)測工作中有很好的表現(xiàn).利用計算方法預(yù)測擬南芥基因轉(zhuǎn)錄調(diào)控關(guān)系可為實驗室研究提供一定理論依據(jù).

      擬南芥;調(diào)控關(guān)系;支持向量機(jī);計算方法

      生物體的發(fā)育過程由一系列復(fù)雜的基因調(diào)控網(wǎng)絡(luò)控制,一個完整的基因調(diào)控網(wǎng)絡(luò)由轉(zhuǎn)錄因子(transcription factor,TF)、靶基因(target gene,TG)及其之間的調(diào)控關(guān)系構(gòu)成.其中,轉(zhuǎn)錄因子是基因表達(dá)的重要調(diào)控因子,在高等生物體的生命循環(huán)中起關(guān)鍵性作用,它們結(jié)合在其靶基因啟動子序列上的特定位點,從而激活或抑制下游靶基因的表達(dá).這些特定的位點,一般是長度為5~25 bp的DNA序列片段,稱為轉(zhuǎn)錄因子結(jié)合位點(transcription factor binding site,TFBS).預(yù)測轉(zhuǎn)錄因子及其靶基因的調(diào)控關(guān)系對深入研究基因的調(diào)控網(wǎng)絡(luò)、生物體發(fā)育的分子機(jī)理具有重要研究意義[1-2].

      近20年來,識別轉(zhuǎn)錄因子和靶基因調(diào)控關(guān)系的方法很多,其中最著名的實驗方法是Chip-on-chip技術(shù).該技術(shù)利用染色質(zhì)免疫沉淀技術(shù)和微陣列技術(shù),能夠在試管中識別出一個特定轉(zhuǎn)錄因子的啟動子.但這種基于實驗技術(shù)的方法受實驗環(huán)境及其他因素的限制,且需大量時間和資金.因此,隨著生物數(shù)據(jù)的大量積累和計算工具的發(fā)展,利用生物信息學(xué)方法預(yù)測轉(zhuǎn)錄因子和靶基因的調(diào)控關(guān)系被不斷地開發(fā)出來.這類方法主要分為兩種:一種是利用表達(dá)譜信息的相關(guān)性,通過建立一定的數(shù)學(xué)模型預(yù)測調(diào)控關(guān)系;另一種是利用識別轉(zhuǎn)錄因子結(jié)合位點的方法,尋找一組共表達(dá)基因的共motif過程來預(yù)測調(diào)控關(guān)系.目前,對擬南芥這種模式植物,基因調(diào)控關(guān)系的預(yù)測方法主要以實驗方法為主,而利用生物信息學(xué)手段來預(yù)測其調(diào)控關(guān)系的方法極為少見.本文基于基因的表達(dá)譜數(shù)據(jù)以及序列的信息特征構(gòu)建調(diào)控關(guān)系的特征向量數(shù)學(xué)模型,并利用支持向量機(jī)預(yù)測擬南芥的基因轉(zhuǎn)錄調(diào)控關(guān)系.

      1 材料與方法

      1.1 數(shù)據(jù)來源

      擬南芥基因表達(dá)譜數(shù)據(jù)從美國Stanford擬南芥信息資源網(wǎng)站(The Arabidopsis Information Resource,TAIR)下載得到.這些微陣列表達(dá)數(shù)據(jù)來源于擬南芥不同的組織和發(fā)展階段:seeding and whole plant,leaves,roots,flower and pollen,shoots and stems,siliques and seed.同時,在數(shù)據(jù)庫Arabidopsis Gene Regulatory Information Server(AGRIS)中下載了擬南芥轉(zhuǎn)錄因子的蛋白質(zhì)序列,并從擬南芥全基因組中提取了每個基因的上游啟動子序列,長度最大為1 000 bp.

      1.2 實驗方法

      擬南芥基因調(diào)控關(guān)系預(yù)測的具體流程如圖1所示.

      圖1 預(yù)測模型流程圖Fig.1 Flow chat of prediction model

      1.2.1 數(shù)據(jù)集的構(gòu)建

      樣本數(shù)據(jù)包括陽集數(shù)據(jù)和陰集數(shù)據(jù).陽集數(shù)據(jù)是指經(jīng)實驗證實具有調(diào)控關(guān)系的基因?qū)?所使用的陽集數(shù)據(jù)是來自于數(shù)據(jù)庫AGRIS中下載的598對標(biāo)記為“confirm”的、經(jīng)實驗驗證的調(diào)控關(guān)系基因?qū)Y選后得到的.具體篩選過程為:首先,篩選掉在TAIR數(shù)據(jù)庫中不含有相對應(yīng)轉(zhuǎn)錄因子蛋白質(zhì)序列或靶基因啟動子序列的基因?qū)Γ黄浯?,去掉基因不存在表達(dá)譜數(shù)據(jù)的基因?qū)?;最后,為緩解樣本?shù)據(jù)的不平衡性,將調(diào)控關(guān)系多于20的轉(zhuǎn)錄因子所對應(yīng)的基因?qū)﹄S機(jī)減少到20.通過以上步驟,最終構(gòu)建了一個含有156對調(diào)控關(guān)系的陽集數(shù)據(jù)集.

      陰集數(shù)據(jù),是指確定沒有基因調(diào)控關(guān)系的基因?qū)?但目前為止,對于模式植物擬南芥,并沒有文獻(xiàn)公開發(fā)表哪些基因?qū)κ谴_定沒有調(diào)控關(guān)系的.陰集數(shù)據(jù)在生物數(shù)據(jù)分類問題中對于分類器的可靠性起著關(guān)鍵性的作用.采用以下策略構(gòu)建了陰集:對于轉(zhuǎn)錄因子TF,若不存在對應(yīng)的轉(zhuǎn)錄因子結(jié)合位點TFBS,則隨機(jī)選擇一個基因作為靶基因TG與其構(gòu)成一個基因?qū)Γ═F,TG).為確保TG不被轉(zhuǎn)錄因子TF所調(diào)控,隨機(jī)重新排列基因TG的表達(dá)譜順序,保證了調(diào)控關(guān)系的不存在性;若TF含有對應(yīng)的TFBS,則在所有基因中搜索該TFBS.若基因TG中不含有TF的TFBS,那么(TF,TG)就構(gòu)成了一個陰集樣本.對于擬南芥這種模式植物,實際的陰集和陽集的比例可能達(dá)到1 000∶1,甚至更大.通過減少陰集樣本數(shù)量的方法可以緩解訓(xùn)練樣本的不均衡性并提高方法的預(yù)測性能.為找出合適的比例參數(shù),比較了不同參數(shù)的預(yù)測性能,最終選擇1∶4作為陽集與陰集的最優(yōu)比例.構(gòu)建了624個陰集樣本數(shù)據(jù),數(shù)量是陽集數(shù)據(jù)的4倍,樣本數(shù)據(jù)情況如表1所示.

      1.2.2 特征向量模型的構(gòu)建

      為便于機(jī)器學(xué)習(xí)的訓(xùn)練,所有樣本需要滿足特定的樣本形式.把將要預(yù)測的調(diào)控關(guān)系基因?qū)Π慈缦滦问浇o出,

      其中:TF表示轉(zhuǎn)錄因子;TG表示推測可能被TF調(diào)控的靶基因.根據(jù)特定的訓(xùn)練形式,按以下步驟構(gòu)建每個基因?qū)Φ奶卣飨蛄磕P停?/p>

      (1)提取每個TF及其靶基因TG的表達(dá)譜特征向量

      (2)提取由轉(zhuǎn)錄因子(氨基酸序列)的20個氨基酸組分構(gòu)成的特征向量

      (3)提取由靶基因(DNA序列)的4個堿基組分、16個相鄰堿基組分及64個密碼子構(gòu)成的特征向量

      將以上3種特征向量組合后的262維向量作為每個基因?qū)Φ奶卣飨蛄磕P洼斎敕诸惼髦羞M(jìn)行分類預(yù)測.

      表1 研究中所使用的陽集和陰集數(shù)量Tab.1 Number of positive and negative samples collected in study

      1.2.3 分類器及檢驗方法

      支持向量機(jī)(support vector machine,SVM)是一種具有某些優(yōu)良特性的“線性分類器”,其數(shù)學(xué)原理的理論依據(jù)是統(tǒng)計學(xué)習(xí)理論,是一種監(jiān)督式的機(jī)器學(xué)習(xí)算法.采用SVM軟件包[3]運行SVM并進(jìn)行數(shù)據(jù)分類和預(yù)測工作.徑向基函數(shù)用作為SVM的核函數(shù),且其可另表示為

      其中,回歸參數(shù)C以及核寬度參數(shù)γ的值是通過在訓(xùn)練集上利用SVM的網(wǎng)絡(luò)搜索工具不斷進(jìn)行訓(xùn)練而得到的,當(dāng)訓(xùn)練的預(yù)測結(jié)果達(dá)到最優(yōu)時,取得此時的兩個參數(shù)值.

      當(dāng)分類預(yù)測工作結(jié)束,需要采用一種驗證方法來檢驗和評估所提出的方法在實際應(yīng)用中的有效性.獨立集檢驗、子樣本檢驗和夾克刀檢驗是3種最為常用的統(tǒng)計預(yù)測方法.其中,夾克刀檢驗(又稱為留一法)通常被認(rèn)為是最有效的一種方法[4].首先選取一對基因?qū)ψ鳛闇y試樣本,剩下的作為訓(xùn)練樣本,依次輪流循環(huán),直到所有樣本基因?qū)Χ甲鳛闇y試樣本,此時遍歷結(jié)束.然后采用敏感度(Sn)、特異性(Sp)以及總準(zhǔn)確精度(OA)作為評估預(yù)測性能的3個指標(biāo),其計算公式分別為:

      式中,TP、T N、FP、FN分別表示預(yù)測正確的陽集樣本個數(shù)、預(yù)測正確的陰集樣本個數(shù)、預(yù)測錯誤的陽集樣本個數(shù)以及預(yù)測錯誤的陰集樣本個數(shù).

      2 結(jié)果與討論

      2.1 表達(dá)譜的相關(guān)性分析

      曾有研究者提出一個基本假設(shè):轉(zhuǎn)錄因子表達(dá)水平的變化將通過轉(zhuǎn)錄調(diào)控過程影響靶基因表達(dá)水平的變化[5].但后來又有研究者提出了另一種觀點:微陣列技術(shù)是一種高通量的數(shù)據(jù)分析手段,某種程度上受實驗環(huán)境等因素影響,并不是非常準(zhǔn)確的.轉(zhuǎn)錄因子和靶基因在表達(dá)譜上的相似性只表示了一種統(tǒng)計依賴性,在某段時間上不一定存在因果關(guān)系[6].為觀察擬南芥具有調(diào)控關(guān)系的轉(zhuǎn)錄因子和靶基因表達(dá)譜數(shù)據(jù)的相關(guān)性情況,隨機(jī)選取了部分陽集數(shù)據(jù)并對其進(jìn)行了相關(guān)性分析,如圖2所示.圖2(a)中具有調(diào)控關(guān)系的基因表達(dá)譜具有一定的相關(guān)性,圖2(b)中的調(diào)控關(guān)系轉(zhuǎn)錄因子的表達(dá)并沒有影響靶基因的表達(dá),圖2(c)和(d)中只有某一段時間上的表達(dá)具有相關(guān)性.盡管都是具有調(diào)控關(guān)系的基因?qū)?,但轉(zhuǎn)錄因子和靶基因在表達(dá)上并不存在直接的因果關(guān)系.該現(xiàn)象也表明,僅僅依靠表達(dá)譜信息來預(yù)測擬南芥的基因調(diào)控關(guān)系是不充分的.

      圖2 部分陽集樣本中轉(zhuǎn)錄因子與其靶基因的表達(dá)水平Fig.2 The gene expression level of TF and its target for part of the positive samples

      2.2 結(jié)果分析

      所有模型的預(yù)測系統(tǒng)都在最優(yōu)回歸參數(shù)C=32和核寬度參數(shù)γ=3.051 757 812 5E-005時進(jìn)行.為觀察不同特征組合的預(yù)測模型對預(yù)測結(jié)果的影響,計算了不同情況的預(yù)測結(jié)果,見表2.

      表2 不同特征的預(yù)測性能比較Tab.2 Prediction performance comparison using different selected features

      在利用機(jī)器學(xué)習(xí)方法對數(shù)據(jù)進(jìn)行分類預(yù)測中,由于訓(xùn)練樣本有限,故若要使機(jī)器學(xué)習(xí)算法具有很好的泛化能力,則樣本特征需要盡可能地少[7].利用SVM軟件包中的特征選擇工具得到每個特征對預(yù)測結(jié)果的貢獻(xiàn)得分,選擇了得分最高的60個特征作為最優(yōu)特征子集,取得的預(yù)測準(zhǔn)確度為97%,敏感度為91.02%,特異性為98.4%.計算了其他K個特征的預(yù)測結(jié)果(K=40,80,100,262).由表2可見,各種情況對于特異性的計算結(jié)果都比較高,這也是構(gòu)建特征向量模型時所期待的結(jié)果.因為對于擬南芥這種模式植物,已被確定具有調(diào)控關(guān)系的陽集樣本數(shù)量有限,而實驗室中的實驗需耗費大量時間、資金等,所以構(gòu)建的預(yù)測模型應(yīng)該盡可能地提高特異性的預(yù)測結(jié)果,才能使預(yù)測模型具有更好的可行性.沒有進(jìn)行特征選擇的SVM_262的敏感度和總準(zhǔn)確度相對較低,這說明選取最優(yōu)特征子集的方法還是非常有必要的.在選擇的60個特征中,包含31個表達(dá)數(shù)據(jù)特征和29個序列特征,這也表明了序列信息特征在擬南芥調(diào)控關(guān)系的預(yù)測中起到了一定的作用.

      3 結(jié) 語

      基于表達(dá)譜數(shù)據(jù)和序列相關(guān)信息構(gòu)建了基因轉(zhuǎn)錄調(diào)控關(guān)系的特征向量模型,通過SVM提出了一種預(yù)測擬南芥基因轉(zhuǎn)錄調(diào)控關(guān)系的計算方法.預(yù)測結(jié)果表明,該方法對預(yù)測擬南芥轉(zhuǎn)錄調(diào)控關(guān)系有著良好的表現(xiàn).目前,由于擬南芥陽集樣本的數(shù)量有限,故該方法還受到數(shù)據(jù)的局限性.相比實驗方法,計算方法可以節(jié)省大量時間和資金,并為實驗方法提供一定理論依據(jù).隨著生物數(shù)據(jù)的不斷增多,利用計算方法來預(yù)測擬南芥基因轉(zhuǎn)錄調(diào)控關(guān)系將會成為實驗方法的一個有益補充.參考文獻(xiàn):

      [1] Pournara I,Wernisch L.Factor analysis for gene regulatory networks and transcription factor activity profiles[J].BMC Bioinformatics,2007,8:61.

      [2] Tan K,Mccue L A,Stormo G D.Making connections between novel transcriptionfactors and their DNA motifs[J].Genome Res,2005,15(2):312-320.

      [3] Chang C C,Lin C J.LIBSVM:A library for support vector machines[EB/OL].[2011-08-30].http://www.csie.ntu.edu.tw/~cjlin/libsvm.

      [4] Chen C,Chen L,Zou X,Cai P.Prediction of protein secondary structure content by using the concept of Chou’s pseudo amino acid composition and support vector machine[J].Prot Pept Lett,2009,16:27-31.

      [5] Liu W L,Li D,Liu Q,et al.A novel parametric approach to mine gene regulatory relationship from microarray datasets[J].BMC Bioinformatics,2010,11(S11):11-15.

      [6] Qian J,Dolled-Filhart M,Lin J,et al.Beyond synexpression relationships:Local clustering of time-shifted and inverted gene expression profiles identifies newbiologically relevant interactions[J].J Mol Biol,2001,314(5):1053-1066.

      [7] Briesemeister S,Rahnenführer J,Kohlbacher O.Going from where to why-interpretable prediction of protein subcellular localization[J].Bioinformatics,2010,26(9):1232-1238.

      (編輯 呂丹)

      Study on Computational Methods for Predicting the Regulatory lnteractions Between Transcription Factors and Their Targets in Arabidopsis

      YU Xiao-qing
      (School of Sciences,Shanghai Institute of Technology,Shanghai 201418,China)

      Arabidopsis,an important model plant,which is widely used in the study of plant biology. Based on the gene expression profile and some sequence-based information,a mathematical model was constructed to predict the regulatory interactions in Arabidopsis.Through support vector machine and Jackknife test,the method was proved to have a good performance.This method could provide some theoretical basis for the laboratory study of the regulatory interaction of Arabidopsis.

      Arabidopsis;regulatory interactions;support vector machines;computational approach

      O 242.1

      A

      1671-7333(2015)01-0091-04

      10.3969/j.issn.1671-7333.2015.01.016

      2014-07-14

      上海市高校青年教師培育基金資助項目(ZZyyy13017);上海應(yīng)用技術(shù)學(xué)院引進(jìn)人才基金資助項目(YJ2013-32)

      于曉慶(1983-),女,講師,博士,主要研究方向為計算數(shù)學(xué),生物信息學(xué).E-mail:xqyu@sit.edu.cn

      猜你喜歡
      擬南芥調(diào)控樣本
      擬南芥:活得粗糙,才讓我有了上太空的資格
      用樣本估計總體復(fù)習(xí)點撥
      如何調(diào)控困意
      經(jīng)濟(jì)穩(wěn)中有進(jìn) 調(diào)控托而不舉
      中國外匯(2019年15期)2019-10-14 01:00:34
      推動醫(yī)改的“直銷樣本”
      尿黑酸對擬南芥酪氨酸降解缺陷突變體sscd1的影響
      兩種LED光源作為擬南芥生長光源的應(yīng)用探究
      隨機(jī)微分方程的樣本Lyapunov二次型估計
      擬南芥干旱敏感突變體篩選及其干旱脅迫響應(yīng)機(jī)制探究
      順勢而導(dǎo) 靈活調(diào)控
      台山市| 巴林左旗| 民县| 定兴县| 蒲江县| 南华县| 扶沟县| 栾川县| 新安县| 汤阴县| 武胜县| 呼和浩特市| 汾西县| 建湖县| 绍兴县| 二手房| 朔州市| 台中市| 崇左市| 德安县| 湘潭市| 军事| 双流县| 当阳市| 崇明县| 郁南县| 新竹县| 常熟市| 高州市| 唐海县| 肇东市| 上蔡县| 密云县| 象山县| 新竹市| 德化县| 桐柏县| 竹北市| 介休市| 楚雄市| 昆明市|