賈艷玲+馬玉韜+劉思遠+唐曉芬
摘要:針對IIR濾波器在設計和使用中存在系統(tǒng)穩(wěn)定性和群延遲造成輸出滯后的問題,以通用梳狀濾波器為例提出了適用于IIR NPBF的改進預測算法。在HMR195序列集上的預測結果表明,所提算法能有效提高編碼區(qū)預測準確率。
關鍵詞:窄通帶濾波器;蛋白質編碼區(qū)預測;無限脈沖響應濾波器;群延遲
中圖分類號:Q751;TN713 文獻標識碼:A 文章編號:0439-8114(2014)19-4712-04
DOI:10.14088/j.cnki.issn0439-8114.2014.19.054
A Gene Prediction Algorithm Based on Improving General Comb Filter
JIA Yan-Linga, MA Yu-Taoa, LIU Si-Yuanb, TANG Xiao-Fenc
(a. School of Physics & Electrical Information Engineering /Ningxia Key Laboratory of Information Sensing &Intelligent Desert;
b. Department of Development Planning and Discipline Construction;
c. School of Mathematics and Computer Science, Ningxia University, Yinchuan 750021,China)
Abstract: Pinpointing the problemd of the system stability and group delay resulting output lagging of the design and use of the IIR filter and using eneral comb filter as an example, an improved algorithm suitable for IIR NPBF was constructed. The prediction results of the data set HMR195 showed that the algorithm proposed could improve the prediction accuracy of measuring AC (approximate correlation).
Key words: narrow pass-band filter; protein coding regions prediction; infinite impulse response filter; group delay
對剛完成測序的DNA序列進行蛋白質編碼區(qū)預測是基因組序列注釋的重要階段,預測準確性越高,注釋工作越容易。由于算法簡單且運算量相對較少,近年來多種方法設計的數字濾波器廣泛用于蛋白質編碼區(qū)(簡稱編碼區(qū)或外顯子)預測研究中。這些設計的數字濾波器能保留具有三堿基周期性(Triplet Bases Periodicity,TBP)的蛋白質編碼信號,同時濾除或抑制各種噪聲,因而以不同的數字濾波器為核心分別形成了與之對應的基因預測算法[1-6]。由于DNA序列的編碼區(qū)具有TBP,而內含子(簡稱非編碼區(qū))和基因間隔區(qū)一般不具有此特性,采用可使具有TBP信號通過而濾除其他信號的IIR或FIR濾波器,就可保留編碼區(qū)信號而濾除非編碼區(qū)信號[1,6-9]。Vaidyanathan等[1,2]提出采用IIR(Infinite Impulse Response)ANF(anti-notch filter),以及采用 IIR MSF(multi-stage filter)用于基因預測,Meher等[4]提出GCF(general comb filter)和CDCF(cascaded differentiator comb filter)的設計。馬玉韜等[5,6]分別給出了FIR(Finite Impulse Response)FSNPBF(frequency sampling narrow pass-band filter)、WNPBF (windowed narrow pass-band filter)和APNPBF(all-phase NPBF)的設計方法,并將其用于基因預測。Mena-Chalco等[7]采用MGWT(modified Gabor wave
let transform)算法提供了HMR185、BG570和Asp67序列集上的堿基層的預測結果。
盡管預測算法性能越來越高效,準確率也越來越高,但仍存在改進的空間。此文提出的MGCF (modified GCF)算法對基于GCF的基因預測算法做了如下改進:一方面,研究了系統(tǒng)極點參數對預測結果的影響;另一方面采用FIR NPBF算法的思想,先以序列邊界為對稱中心,對稱地延拓濾波器的輸入序列,然后舍棄濾波器輸出序列的起始部分。這樣做既可以保證系統(tǒng)的穩(wěn)定性,又改善了由于濾波器群延遲帶來的濾波器輸出與輸入序列相比存在的滯后效應。在標準序列F56F11.4和HMR195序列集上獲得的預測結果表明, MGCF算法預測結果優(yōu)于GCF算法。
1 GCF算法的改進
1.1 GCF極點參數的改進
根據Meher等[4]的研究,用于編碼區(qū)預測的GCF的系統(tǒng)函數為:
H(z)=■=■ (1)
本研究提出的MGCF的系統(tǒng)函數為:
H(z)=(■)3 (2)
式(1)中,常數C=3用于濾除其他信號同時使蛋白質編碼信號能夠通過;常數R是惟一可調參數,其值大小與系統(tǒng)零極點的位置相關聯。試驗結果表明, 用于編碼區(qū)預測時,MGCF算法中R=0.980性能優(yōu)于GCF算法中R=0.992(Vaidyanathan和Meher采用的參數)時性能。圖1給出了GCF和MGCF的頻率響應曲線。由圖1可以看出,GCF的選頻特性要好于MGCF,但由于系統(tǒng)極點過于靠近單位圓,造成系統(tǒng)的穩(wěn)定性不夠好。
1.2 GCF群延遲和DNA序列延拓處理
在FIR NPBF預測算法中,脈沖響應長度為L=N的線性相位FIR濾波器的群延遲為[10]:
τ=(N-1)/2 (3)
輸入濾波器的序列(信號)可按長度(N-1)/2在信號的首尾兩端做對稱延拓處理,經延拓處理的序列通過濾波器后,舍棄序列最初的N-1個輸出樣本,剩下的序列則與輸入序列在時域對齊,這樣可以減小甚至去除濾波器群延遲影響。
類似于FIR濾波器,將IIR GCF和MGCF應用于基因預測中時,也需要考慮群延遲帶來的問題。一般來說,IIR濾波器的相位函數是非線性的,即IIR GCF和MGCF的頻率響應為:
H(ejw)=H(z)|■=|H(ejw)|·ej?漬(w) (4)
從式(4)可以看出,IIR GCF和MGCF的相位函數是群延遲的非線性函數,即濾波器的輸出和輸入之間的延時不是一個固定的常數,而是伴隨信號頻率發(fā)生變化。由于用于基因預測的IIR濾波器通帶相對較窄,理想情況只有周期為3的信號能通過,所以取通帶中心處的群延遲作為延拓處理的長度參數,對GCF和MGCF的輸入輸出序列做類似FIR NPBF算法中的延拓截取處理,能夠改善群延遲對預測結果的影響[5]。
2 基因預測試驗材料和MGCF算法
2.1 試驗材料
采用基因序列F56F11.4, DNA序列集HMR195[11]和ALLSEQ[12]來驗證提出的MGCF算法?;蛐蛄蠪56F11.4是各種算法進行比較時普遍采用的標準序列(在染色體中排列的堿基號從7 021~15 080,編號AF099922)[1-9]。表1給出了HMR195和ALLSEQ這兩個DNA測試序列集的詳細信息。
2.2 MGCF算法
MGCF算法主要包括以下步驟:①先將DNA序列以τ長度在首尾兩端對稱擴展,然后采用Voss法將擴展的序列映射成數值序列(信號);②使用GCF或MGCF對前一步得到的數值信號進行濾波,濾除非周期3信號;③舍棄最先輸出的長度為2τ的輸出序列,計算濾波器的四路輸出序列(信號)的功率譜密度PSD(power spectral density)并按式(5)累加[1];④對PSD曲線按式(6)進行滑動平均濾波;⑤用非編碼率作為閾值對DNA序列進行分類,確定DNA序列中的編碼區(qū)和非編碼區(qū)[7];⑥評估算法性能。
PSD[n]=■■|yt[n]|2,l=A,T,C,G;n=1,…,L(5)
PSDma[n]=■■PSD(n-i) (6)
根據已有的研究,在較大的DNA序列集上,映射方法采用Voss法比PN(Paired Numeric)法獲得的預測準確率更高,因此本文采用Voss映射方法。采用預測非編碼率作為閾值來確定具體序列的功率譜密度值(例如,閾值選為84,意味著DNA序列的16%被預測為編碼區(qū)),用以區(qū)分預測的編碼區(qū)和非編碼區(qū)[7],預測編碼區(qū)的功率譜密度值應高于其它區(qū)域的值。參數Nma為滑動平均濾波器的長度。
2.3 性能評價
為了分析和對比GCF算法和MGCF算法的預測準確率,用由式(7)至式(11)分別定義的近似相關系數AC(Approximate Correlation)、相關系數CC(Correlation Coefficient)、敏感度Sn(Sensitivity)和特異度Sp(Specificity)等來評估算法對編碼區(qū)的識別性能[11]。其中AC、CC的值是包含在數據集中的所有序列的均值,Sn表示某個序列或數據集的平均敏感度;ACH是敏感度和特異度之和的一半;FPR是FPR(False Positive Rate)的均值。同時也采用ROC(Receiver Operation Characteristic) 曲線和ROC曲線的AUC(Area Under the ROC Curve)來評估算法性能[7]。
Sn=■,Sp=■, (7)
ACP=■■+■+■+■,(8)
AC=(ACP-0.5)×2,(9)
CC=■,(10)
FPR=1-Sp=■ (11)
(7)式至(11)式中TP、TN、FP和FN分別代表正確預測編碼堿基數目、正確預測非編碼堿基數目、錯誤預測編碼堿基數目和錯誤預測非編碼堿基數目。
3 結果與分析
3.1 序列F56F11.4試驗
在序列F56F11.4上的試驗首先比較研究了GCF和MGCF兩種濾波器參數R的取值與預測準確率AC之間的關系,然后比較研究了它們的ROC曲線特點。圖2a和圖2b分別給出了GCF和MGCF對F56F11.4的預測結果。
由圖2a和2b可以看出,MGCF預測算法明顯改善了濾波器群延遲造成的預測編碼區(qū)和真實編碼區(qū)之間的時域延遲影響,而且預測結果中沒有偽外顯子;圖2c給出的是濾波器設計參數R和預測準確率AC之間的關系曲線,該曲線說明,GCF在與MGCF分別在R值為0.976和0.980附近獲得最高的預測準確率,這兩個R值都小于Vaidyanathan 和Meher使用的0.992;圖2d給出的是GCF和MGCF兩種濾波器預測結果的ROC曲線,從曲線可以看出MGCF算法的性能明顯高于GCF算法。
表2分別列出了MGCF算法和GCF算法性能評價指標。由表2可以看出,MGCF算法的FPR小于GCF算法的FPR;MGCF算法的Sn大于GCF算法的Sn;MGCF算法在最好預測準確率處對應的PNCB值與真實的84更接近。這些都表明在序列F56F11.4上,相比GCF算法,MGCF算法以較低的代價獲得了較高的預測準確性。
3.2 序列集試驗
為了充分驗證MGCF算法的性能,對序列集HMR195的編碼區(qū)進行了預測,預測結果見表3。從表3可以看出,除了FPR值,MGCF算法的AC、CC、ACH和Sn 4個參數的值均大于GCF算法相應參數值。同序列F56F11.4上試驗結果類似,FPR值越小,算法預測性能越好;AC、CC、ACH和Sn的值越大,算法預測結果準確率越高。
4 小結
提出了一種基于改進通用梳狀濾波器的基因預測算法。從系統(tǒng)穩(wěn)定性方面研究改進了系統(tǒng)的極點參數選擇;采用線性相位FIR NPBF算法,將IIR濾波器的非線性相位做了線性近似,使得NPBF編碼區(qū)預測算法可以不受濾波器相位函數的約束,擴大了應用范圍;所提新算法對編碼區(qū)預測的準確率大幅提高。該算法可作為改善IIR濾波器性能的一種有效參考。
參考文獻:
[1] VAIDYANATHAN P P,YOON B J. Digital filters for gene prediction applications[C]. IEEE Asilomar Conference on Signals, Systems and Computers. Monterey, CA: IEEE Processing Society, 2002. 306-310.
[2] VAIDYANATHAN P P,YOON B J. Gene and exon prediction using allpass-based filters[C]. IEEE Workshop Genomic Signal Processing and Statistics. Raleigh, NC, 2002.
[3] 馬寶山,朱義勝.一種用于基因預測的FIR數字濾波器[J].電子學報,2007,35(9):1710-1713.
[4] MEHER J, MEHER P K, Dash G. Improved comb filter based approach for effective prediction of protein coding regions in DNA sequences[J]. Journal of Signal and Information Processing, 2011,2: 88-99.
[5] 馬玉韜,車 進,關 欣,等.加窗窄通帶濾波器蛋白質編碼區(qū)預測算法[J].數據采集與處理,2013,28(2):129-135.
[6] 馬玉韜,軒秀巍,車 進,等.基于全相位濾波理論的基因預測研究[J].上海交通大學學報,2013,47(7):1149-1154.
[7] Mena-Chalco J P,CARRER H, ZANA Y,et al. Identification of protein coding regions using the modified Gabor-wavelet transform[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2008,5: 198-206.
[8] AKHTAR M. Comparison of gene and exon prediction techniques for detection of short coding regions[J]. International Journal of Information Technology, 2005,11(8):26-35.
[9] AKHTAR M, EPPS J, Ambikairajah E. Signal processing in sequence analysis: advances in Eukaryotic gene prediction[J]. IEEE Journal of Selected Topics in Singal Processing, 2008,2(3):310-321.
[10] MITRA S K. Digital signal processing: A computer-based approach[M]. 2 edition. New York: McGraw-Hill, 2001.
[11] BURSET M, GUIGO R. Evaluation of gene structure prediction programs[J]. Genomics, 1996,34:353-367.
[12] ROGIC S, MACKWORTH A K, OUELLETTE B F. Evaluation of Gene-Finding Programs on Mammalian Sequences[J]. Genome Research, 2001,11:817-832.
為了充分驗證MGCF算法的性能,對序列集HMR195的編碼區(qū)進行了預測,預測結果見表3。從表3可以看出,除了FPR值,MGCF算法的AC、CC、ACH和Sn 4個參數的值均大于GCF算法相應參數值。同序列F56F11.4上試驗結果類似,FPR值越小,算法預測性能越好;AC、CC、ACH和Sn的值越大,算法預測結果準確率越高。
4 小結
提出了一種基于改進通用梳狀濾波器的基因預測算法。從系統(tǒng)穩(wěn)定性方面研究改進了系統(tǒng)的極點參數選擇;采用線性相位FIR NPBF算法,將IIR濾波器的非線性相位做了線性近似,使得NPBF編碼區(qū)預測算法可以不受濾波器相位函數的約束,擴大了應用范圍;所提新算法對編碼區(qū)預測的準確率大幅提高。該算法可作為改善IIR濾波器性能的一種有效參考。
參考文獻:
[1] VAIDYANATHAN P P,YOON B J. Digital filters for gene prediction applications[C]. IEEE Asilomar Conference on Signals, Systems and Computers. Monterey, CA: IEEE Processing Society, 2002. 306-310.
[2] VAIDYANATHAN P P,YOON B J. Gene and exon prediction using allpass-based filters[C]. IEEE Workshop Genomic Signal Processing and Statistics. Raleigh, NC, 2002.
[3] 馬寶山,朱義勝.一種用于基因預測的FIR數字濾波器[J].電子學報,2007,35(9):1710-1713.
[4] MEHER J, MEHER P K, Dash G. Improved comb filter based approach for effective prediction of protein coding regions in DNA sequences[J]. Journal of Signal and Information Processing, 2011,2: 88-99.
[5] 馬玉韜,車 進,關 欣,等.加窗窄通帶濾波器蛋白質編碼區(qū)預測算法[J].數據采集與處理,2013,28(2):129-135.
[6] 馬玉韜,軒秀巍,車 進,等.基于全相位濾波理論的基因預測研究[J].上海交通大學學報,2013,47(7):1149-1154.
[7] Mena-Chalco J P,CARRER H, ZANA Y,et al. Identification of protein coding regions using the modified Gabor-wavelet transform[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2008,5: 198-206.
[8] AKHTAR M. Comparison of gene and exon prediction techniques for detection of short coding regions[J]. International Journal of Information Technology, 2005,11(8):26-35.
[9] AKHTAR M, EPPS J, Ambikairajah E. Signal processing in sequence analysis: advances in Eukaryotic gene prediction[J]. IEEE Journal of Selected Topics in Singal Processing, 2008,2(3):310-321.
[10] MITRA S K. Digital signal processing: A computer-based approach[M]. 2 edition. New York: McGraw-Hill, 2001.
[11] BURSET M, GUIGO R. Evaluation of gene structure prediction programs[J]. Genomics, 1996,34:353-367.
[12] ROGIC S, MACKWORTH A K, OUELLETTE B F. Evaluation of Gene-Finding Programs on Mammalian Sequences[J]. Genome Research, 2001,11:817-832.
為了充分驗證MGCF算法的性能,對序列集HMR195的編碼區(qū)進行了預測,預測結果見表3。從表3可以看出,除了FPR值,MGCF算法的AC、CC、ACH和Sn 4個參數的值均大于GCF算法相應參數值。同序列F56F11.4上試驗結果類似,FPR值越小,算法預測性能越好;AC、CC、ACH和Sn的值越大,算法預測結果準確率越高。
4 小結
提出了一種基于改進通用梳狀濾波器的基因預測算法。從系統(tǒng)穩(wěn)定性方面研究改進了系統(tǒng)的極點參數選擇;采用線性相位FIR NPBF算法,將IIR濾波器的非線性相位做了線性近似,使得NPBF編碼區(qū)預測算法可以不受濾波器相位函數的約束,擴大了應用范圍;所提新算法對編碼區(qū)預測的準確率大幅提高。該算法可作為改善IIR濾波器性能的一種有效參考。
參考文獻:
[1] VAIDYANATHAN P P,YOON B J. Digital filters for gene prediction applications[C]. IEEE Asilomar Conference on Signals, Systems and Computers. Monterey, CA: IEEE Processing Society, 2002. 306-310.
[2] VAIDYANATHAN P P,YOON B J. Gene and exon prediction using allpass-based filters[C]. IEEE Workshop Genomic Signal Processing and Statistics. Raleigh, NC, 2002.
[3] 馬寶山,朱義勝.一種用于基因預測的FIR數字濾波器[J].電子學報,2007,35(9):1710-1713.
[4] MEHER J, MEHER P K, Dash G. Improved comb filter based approach for effective prediction of protein coding regions in DNA sequences[J]. Journal of Signal and Information Processing, 2011,2: 88-99.
[5] 馬玉韜,車 進,關 欣,等.加窗窄通帶濾波器蛋白質編碼區(qū)預測算法[J].數據采集與處理,2013,28(2):129-135.
[6] 馬玉韜,軒秀巍,車 進,等.基于全相位濾波理論的基因預測研究[J].上海交通大學學報,2013,47(7):1149-1154.
[7] Mena-Chalco J P,CARRER H, ZANA Y,et al. Identification of protein coding regions using the modified Gabor-wavelet transform[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2008,5: 198-206.
[8] AKHTAR M. Comparison of gene and exon prediction techniques for detection of short coding regions[J]. International Journal of Information Technology, 2005,11(8):26-35.
[9] AKHTAR M, EPPS J, Ambikairajah E. Signal processing in sequence analysis: advances in Eukaryotic gene prediction[J]. IEEE Journal of Selected Topics in Singal Processing, 2008,2(3):310-321.
[10] MITRA S K. Digital signal processing: A computer-based approach[M]. 2 edition. New York: McGraw-Hill, 2001.
[11] BURSET M, GUIGO R. Evaluation of gene structure prediction programs[J]. Genomics, 1996,34:353-367.
[12] ROGIC S, MACKWORTH A K, OUELLETTE B F. Evaluation of Gene-Finding Programs on Mammalian Sequences[J]. Genome Research, 2001,11:817-832.