擬南芥基因轉(zhuǎn)錄調(diào)控關(guān)系的計算方法研究

2015-11-17 12:11:07于曉慶

應(yīng)用技術(shù)學(xué)報 2015年1期

關(guān)鍵詞：擬南芥調(diào)控樣本

于曉慶

（上海應(yīng)用技術(shù)學(xué)院理學(xué)院，上海 201418）

擬南芥基因轉(zhuǎn)錄調(diào)控關(guān)系的計算方法研究

于曉慶

（上海應(yīng)用技術(shù)學(xué)院理學(xué)院，上海 201418）

擬南芥是一種重要的模式植物，已被廣泛應(yīng)用于植物生物學(xué)研究.基于基因表達(dá)譜和序列信息構(gòu)建了預(yù)測擬南芥基因調(diào)控關(guān)系的數(shù)學(xué)模型.通過支持向量機(jī)和夾克刀的測試，結(jié)果表明該方法在擬南芥基因調(diào)控關(guān)系的預(yù)測工作中有很好的表現(xiàn).利用計算方法預(yù)測擬南芥基因轉(zhuǎn)錄調(diào)控關(guān)系可為實驗室研究提供一定理論依據(jù).

擬南芥；調(diào)控關(guān)系；支持向量機(jī)；計算方法

生物體的發(fā)育過程由一系列復(fù)雜的基因調(diào)控網(wǎng)絡(luò)控制，一個完整的基因調(diào)控網(wǎng)絡(luò)由轉(zhuǎn)錄因子（transcription factor，TF）、靶基因（target gene，TG）及其之間的調(diào)控關(guān)系構(gòu)成.其中，轉(zhuǎn)錄因子是基因表達(dá)的重要調(diào)控因子，在高等生物體的生命循環(huán)中起關(guān)鍵性作用，它們結(jié)合在其靶基因啟動子序列上的特定位點，從而激活或抑制下游靶基因的表達(dá).這些特定的位點，一般是長度為5～25 bp的DNA序列片段，稱為轉(zhuǎn)錄因子結(jié)合位點（transcription factor binding site，TFBS）.預(yù)測轉(zhuǎn)錄因子及其靶基因的調(diào)控關(guān)系對深入研究基因的調(diào)控網(wǎng)絡(luò)、生物體發(fā)育的分子機(jī)理具有重要研究意義［1-2］.

近20年來，識別轉(zhuǎn)錄因子和靶基因調(diào)控關(guān)系的方法很多，其中最著名的實驗方法是Chip-on-chip技術(shù).該技術(shù)利用染色質(zhì)免疫沉淀技術(shù)和微陣列技術(shù)，能夠在試管中識別出一個特定轉(zhuǎn)錄因子的啟動子.但這種基于實驗技術(shù)的方法受實驗環(huán)境及其他因素的限制，且需大量時間和資金.因此，隨著生物數(shù)據(jù)的大量積累和計算工具的發(fā)展，利用生物信息學(xué)方法預(yù)測轉(zhuǎn)錄因子和靶基因的調(diào)控關(guān)系被不斷地開發(fā)出來.這類方法主要分為兩種：一種是利用表達(dá)譜信息的相關(guān)性，通過建立一定的數(shù)學(xué)模型預(yù)測調(diào)控關(guān)系；另一種是利用識別轉(zhuǎn)錄因子結(jié)合位點的方法，尋找一組共表達(dá)基因的共motif過程來預(yù)測調(diào)控關(guān)系.目前，對擬南芥這種模式植物，基因調(diào)控關(guān)系的預(yù)測方法主要以實驗方法為主，而利用生物信息學(xué)手段來預(yù)測其調(diào)控關(guān)系的方法極為少見.本文基于基因的表達(dá)譜數(shù)據(jù)以及序列的信息特征構(gòu)建調(diào)控關(guān)系的特征向量數(shù)學(xué)模型，并利用支持向量機(jī)預(yù)測擬南芥的基因轉(zhuǎn)錄調(diào)控關(guān)系.

1 材料與方法

1.1 數(shù)據(jù)來源

擬南芥基因表達(dá)譜數(shù)據(jù)從美國Stanford擬南芥信息資源網(wǎng)站（The Arabidopsis Information Resource，TAIR）下載得到.這些微陣列表達(dá)數(shù)據(jù)來源于擬南芥不同的組織和發(fā)展階段：seeding and whole plant，leaves，roots，flower and pollen，shoots and stems，siliques and seed.同時，在數(shù)據(jù)庫Arabidopsis Gene Regulatory Information Server（AGRIS）中下載了擬南芥轉(zhuǎn)錄因子的蛋白質(zhì)序列，并從擬南芥全基因組中提取了每個基因的上游啟動子序列，長度最大為1 000 bp.

1.2 實驗方法

擬南芥基因調(diào)控關(guān)系預(yù)測的具體流程如圖1所示.

圖1 預(yù)測模型流程圖Fig.1 Flow chat of prediction model

1.2.1 數(shù)據(jù)集的構(gòu)建

樣本數(shù)據(jù)包括陽集數(shù)據(jù)和陰集數(shù)據(jù).陽集數(shù)據(jù)是指經(jīng)實驗證實具有調(diào)控關(guān)系的基因?qū)?所使用的陽集數(shù)據(jù)是來自于數(shù)據(jù)庫AGRIS中下載的598對標(biāo)記為“confirm”的、經(jīng)實驗驗證的調(diào)控關(guān)系基因?qū)Y選后得到的.具體篩選過程為：首先，篩選掉在TAIR數(shù)據(jù)庫中不含有相對應(yīng)轉(zhuǎn)錄因子蛋白質(zhì)序列或靶基因啟動子序列的基因?qū)Γ黄浯?，去掉基因不存在表達(dá)譜數(shù)據(jù)的基因?qū)?；最后，為緩解樣本?shù)據(jù)的不平衡性，將調(diào)控關(guān)系多于20的轉(zhuǎn)錄因子所對應(yīng)的基因?qū)﹄S機(jī)減少到20.通過以上步驟，最終構(gòu)建了一個含有156對調(diào)控關(guān)系的陽集數(shù)據(jù)集.

陰集數(shù)據(jù)，是指確定沒有基因調(diào)控關(guān)系的基因?qū)?但目前為止，對于模式植物擬南芥，并沒有文獻(xiàn)公開發(fā)表哪些基因?qū)κ谴_定沒有調(diào)控關(guān)系的.陰集數(shù)據(jù)在生物數(shù)據(jù)分類問題中對于分類器的可靠性起著關(guān)鍵性的作用.采用以下策略構(gòu)建了陰集：對于轉(zhuǎn)錄因子TF，若不存在對應(yīng)的轉(zhuǎn)錄因子結(jié)合位點TFBS，則隨機(jī)選擇一個基因作為靶基因TG與其構(gòu)成一個基因?qū)Γ═F，TG）.為確保TG不被轉(zhuǎn)錄因子TF所調(diào)控，隨機(jī)重新排列基因TG的表達(dá)譜順序，保證了調(diào)控關(guān)系的不存在性；若TF含有對應(yīng)的TFBS，則在所有基因中搜索該TFBS.若基因TG中不含有TF的TFBS，那么（TF，TG）就構(gòu)成了一個陰集樣本.對于擬南芥這種模式植物，實際的陰集和陽集的比例可能達(dá)到1 000∶1，甚至更大.通過減少陰集樣本數(shù)量的方法可以緩解訓(xùn)練樣本的不均衡性并提高方法的預(yù)測性能.為找出合適的比例參數(shù)，比較了不同參數(shù)的預(yù)測性能，最終選擇1∶4作為陽集與陰集的最優(yōu)比例.構(gòu)建了624個陰集樣本數(shù)據(jù)，數(shù)量是陽集數(shù)據(jù)的4倍，樣本數(shù)據(jù)情況如表1所示.

1.2.2 特征向量模型的構(gòu)建

為便于機(jī)器學(xué)習(xí)的訓(xùn)練，所有樣本需要滿足特定的樣本形式.把將要預(yù)測的調(diào)控關(guān)系基因?qū)Π慈缦滦问浇o出，

其中：TF表示轉(zhuǎn)錄因子；TG表示推測可能被TF調(diào)控的靶基因.根據(jù)特定的訓(xùn)練形式，按以下步驟構(gòu)建每個基因?qū)Φ奶卣飨蛄磕Ｐ停?/p>

（1）提取每個TF及其靶基因TG的表達(dá)譜特征向量

（2）提取由轉(zhuǎn)錄因子（氨基酸序列）的20個氨基酸組分構(gòu)成的特征向量

（3）提取由靶基因（DNA序列）的4個堿基組分、16個相鄰堿基組分及64個密碼子構(gòu)成的特征向量

將以上3種特征向量組合后的262維向量作為每個基因?qū)Φ奶卣飨蛄磕Ｐ洼斎敕诸惼髦羞M(jìn)行分類預(yù)測.

表1 研究中所使用的陽集和陰集數(shù)量Tab.1 Number of positive and negative samples collected in study

1.2.3 分類器及檢驗方法

支持向量機(jī)（support vector machine，SVM）是一種具有某些優(yōu)良特性的“線性分類器”，其數(shù)學(xué)原理的理論依據(jù)是統(tǒng)計學(xué)習(xí)理論，是一種監(jiān)督式的機(jī)器學(xué)習(xí)算法.采用SVM軟件包［3］運行SVM并進(jìn)行數(shù)據(jù)分類和預(yù)測工作.徑向基函數(shù)用作為SVM的核函數(shù)，且其可另表示為

其中，回歸參數(shù)C以及核寬度參數(shù)γ的值是通過在訓(xùn)練集上利用SVM的網(wǎng)絡(luò)搜索工具不斷進(jìn)行訓(xùn)練而得到的，當(dāng)訓(xùn)練的預(yù)測結(jié)果達(dá)到最優(yōu)時，取得此時的兩個參數(shù)值.

當(dāng)分類預(yù)測工作結(jié)束，需要采用一種驗證方法來檢驗和評估所提出的方法在實際應(yīng)用中的有效性.獨立集檢驗、子樣本檢驗和夾克刀檢驗是3種最為常用的統(tǒng)計預(yù)測方法.其中，夾克刀檢驗（又稱為留一法）通常被認(rèn)為是最有效的一種方法［4］.首先選取一對基因?qū)ψ鳛闇y試樣本，剩下的作為訓(xùn)練樣本，依次輪流循環(huán)，直到所有樣本基因?qū)Χ甲鳛闇y試樣本，此時遍歷結(jié)束.然后采用敏感度（Sn）、特異性（Sp）以及總準(zhǔn)確精度（OA）作為評估預(yù)測性能的3個指標(biāo)，其計算公式分別為：

式中，TP、T N、FP、FN分別表示預(yù)測正確的陽集樣本個數(shù)、預(yù)測正確的陰集樣本個數(shù)、預(yù)測錯誤的陽集樣本個數(shù)以及預(yù)測錯誤的陰集樣本個數(shù).

2 結(jié)果與討論

2.1 表達(dá)譜的相關(guān)性分析

曾有研究者提出一個基本假設(shè)：轉(zhuǎn)錄因子表達(dá)水平的變化將通過轉(zhuǎn)錄調(diào)控過程影響靶基因表達(dá)水平的變化［5］.但后來又有研究者提出了另一種觀點：微陣列技術(shù)是一種高通量的數(shù)據(jù)分析手段，某種程度上受實驗環(huán)境等因素影響，并不是非常準(zhǔn)確的.轉(zhuǎn)錄因子和靶基因在表達(dá)譜上的相似性只表示了一種統(tǒng)計依賴性，在某段時間上不一定存在因果關(guān)系［6］.為觀察擬南芥具有調(diào)控關(guān)系的轉(zhuǎn)錄因子和靶基因表達(dá)譜數(shù)據(jù)的相關(guān)性情況，隨機(jī)選取了部分陽集數(shù)據(jù)并對其進(jìn)行了相關(guān)性分析，如圖2所示.圖2（a）中具有調(diào)控關(guān)系的基因表達(dá)譜具有一定的相關(guān)性，圖2（b）中的調(diào)控關(guān)系轉(zhuǎn)錄因子的表達(dá)并沒有影響靶基因的表達(dá)，圖2（c）和（d）中只有某一段時間上的表達(dá)具有相關(guān)性.盡管都是具有調(diào)控關(guān)系的基因?qū)?，但轉(zhuǎn)錄因子和靶基因在表達(dá)上并不存在直接的因果關(guān)系.該現(xiàn)象也表明，僅僅依靠表達(dá)譜信息來預(yù)測擬南芥的基因調(diào)控關(guān)系是不充分的.

圖2 部分陽集樣本中轉(zhuǎn)錄因子與其靶基因的表達(dá)水平Fig.2 The gene expression level of TF and its target for part of the positive samples

2.2 結(jié)果分析

所有模型的預(yù)測系統(tǒng)都在最優(yōu)回歸參數(shù)C=32和核寬度參數(shù)γ=3.051 757 812 5E-005時進(jìn)行.為觀察不同特征組合的預(yù)測模型對預(yù)測結(jié)果的影響，計算了不同情況的預(yù)測結(jié)果，見表2.

表2 不同特征的預(yù)測性能比較Tab.2 Prediction performance comparison using different selected features

在利用機(jī)器學(xué)習(xí)方法對數(shù)據(jù)進(jìn)行分類預(yù)測中，由于訓(xùn)練樣本有限，故若要使機(jī)器學(xué)習(xí)算法具有很好的泛化能力，則樣本特征需要盡可能地少［7］.利用SVM軟件包中的特征選擇工具得到每個特征對預(yù)測結(jié)果的貢獻(xiàn)得分，選擇了得分最高的60個特征作為最優(yōu)特征子集，取得的預(yù)測準(zhǔn)確度為97%，敏感度為91.02%，特異性為98.4%.計算了其他K個特征的預(yù)測結(jié)果（K=40，80，100，262）.由表2可見，各種情況對于特異性的計算結(jié)果都比較高，這也是構(gòu)建特征向量模型時所期待的結(jié)果.因為對于擬南芥這種模式植物，已被確定具有調(diào)控關(guān)系的陽集樣本數(shù)量有限，而實驗室中的實驗需耗費大量時間、資金等，所以構(gòu)建的預(yù)測模型應(yīng)該盡可能地提高特異性的預(yù)測結(jié)果，才能使預(yù)測模型具有更好的可行性.沒有進(jìn)行特征選擇的SVM_262的敏感度和總準(zhǔn)確度相對較低，這說明選取最優(yōu)特征子集的方法還是非常有必要的.在選擇的60個特征中，包含31個表達(dá)數(shù)據(jù)特征和29個序列特征，這也表明了序列信息特征在擬南芥調(diào)控關(guān)系的預(yù)測中起到了一定的作用.

3 結(jié) 語

基于表達(dá)譜數(shù)據(jù)和序列相關(guān)信息構(gòu)建了基因轉(zhuǎn)錄調(diào)控關(guān)系的特征向量模型，通過SVM提出了一種預(yù)測擬南芥基因轉(zhuǎn)錄調(diào)控關(guān)系的計算方法.預(yù)測結(jié)果表明，該方法對預(yù)測擬南芥轉(zhuǎn)錄調(diào)控關(guān)系有著良好的表現(xiàn).目前，由于擬南芥陽集樣本的數(shù)量有限，故該方法還受到數(shù)據(jù)的局限性.相比實驗方法，計算方法可以節(jié)省大量時間和資金，并為實驗方法提供一定理論依據(jù).隨著生物數(shù)據(jù)的不斷增多，利用計算方法來預(yù)測擬南芥基因轉(zhuǎn)錄調(diào)控關(guān)系將會成為實驗方法的一個有益補充.參考文獻(xiàn)：

［1］ Pournara I，Wernisch L.Factor analysis for gene regulatory networks and transcription factor activity profiles［J］.BMC Bioinformatics，2007，8：61.

［2］ Tan K，Mccue L A，Stormo G D.Making connections between novel transcriptionfactors and their DNA motifs［J］.Genome Res，2005，15（2）：312-320.

［3］ Chang C C，Lin C J.LIBSVM：A library for support vector machines［EB／OL］.［2011-08-30］.http：／／www.csie.ntu.edu.tw／～cjlin／libsvm.

［4］ Chen C，Chen L，Zou X，Cai P.Prediction of protein secondary structure content by using the concept of Chou’s pseudo amino acid composition and support vector machine［J］.Prot Pept Lett，2009，16：27-31.

［5］ Liu W L，Li D，Liu Q，et al.A novel parametric approach to mine gene regulatory relationship from microarray datasets［J］.BMC Bioinformatics，2010，11（S11）：11-15.

［6］ Qian J，Dolled-Filhart M，Lin J，et al.Beyond synexpression relationships：Local clustering of time-shifted and inverted gene expression profiles identifies newbiologically relevant interactions［J］.J Mol Biol，2001，314（5）：1053-1066.

［7］ Briesemeister S，Rahnenführer J，Kohlbacher O.Going from where to why-interpretable prediction of protein subcellular localization［J］.Bioinformatics，2010，26（9）：1232-1238.

（編輯呂丹）

Study on Computational Methods for Predicting the Regulatory lnteractions Between Transcription Factors and Their Targets in Arabidopsis

YU Xiao-qing
（School of Sciences，Shanghai Institute of Technology，Shanghai 201418，China）

Arabidopsis，an important model plant，which is widely used in the study of plant biology. Based on the gene expression profile and some sequence-based information，a mathematical model was constructed to predict the regulatory interactions in Arabidopsis.Through support vector machine and Jackknife test，the method was proved to have a good performance.This method could provide some theoretical basis for the laboratory study of the regulatory interaction of Arabidopsis.

Arabidopsis；regulatory interactions；support vector machines；computational approach

O 242.1

1671-7333（2015）01-0091-04

10.3969／j.issn.1671-7333.2015.01.016

2014-07-14

上海市高校青年教師培育基金資助項目（ZZyyy13017）；上海應(yīng)用技術(shù)學(xué)院引進(jìn)人才基金資助項目（YJ2013-32）

于曉慶（1983-），女，講師，博士，主要研究方向為計算數(shù)學(xué)，生物信息學(xué).E-mail：xqyu＠sit.edu.cn