劉志康,張燁菲,邵李煥,張 鈺
(杭州電子科技大學電子信息學院,浙江 杭州 310018)
胎兒早產是新生兒患病死亡的最主要原因之一。宮縮(Uterine Contraction,UC)作為孕婦產檢的一項重要監(jiān)測指標,在一定程度上能反映圍產期孕婦和胎兒的健康狀態(tài)。將宮縮信號強度自動分類方法引入臨床診斷可以為醫(yī)生提供及時和精確的輔助診斷,避免人為判斷差異性帶來的醫(yī)療事故。臨床上,根據宮縮曲線上升段和下降段所占時間長短的不同來反映不同強度類型的宮縮[1]。國內外關于不同強度宮縮信號的自動分類研究已相繼開展。文獻[2]利用移動平均濾波器抑制噪聲,基于人工提取的8個時態(tài)特征,利用規(guī)則的k最近鄰(k-Nearest Neighbor,kNN)分類器進行分類,但是,該方法非常依賴現有樣本且不具備普遍性,分類精度不高。文獻[3]利用3種不同的加權kNN分類器和決策樹進行分類,但各類樣本數量較少,易受噪聲樣本的干擾。文獻[4]基于自回歸模型頻譜估計和標準方差分類的自適應濾波,利用決策樹進行分類,該方法采用時域波形法和時域參數分析法獲取信號一維特征,特征類型單一,分類效果有限。遞歸分析將一維時間信號轉換到二維圖像,利用遞歸圖的紋理特征描述不同狀態(tài)的信號,已被廣泛應用于語音、機械、材料等信號處理,并取得了不錯的效果[5-7]。本文提出一種基于遞歸分析的宮縮信號強度分類方法,實現3類不同強度的宮縮信號分類。
遞歸性是非線性動力學系統(tǒng)的基本屬性之一,通過遞歸特性可以分析時間序列周期性、混沌性以及非平穩(wěn)性。遞歸分析主要通過遞歸圖來實現高維空間中時間序列遞歸特征的提取。
首先,將時間序列向量Xi(i=1,2,…,N)重構為d維的相空間:
Xi=(xi,xi+τ,…,xi+(d-1)τ)
(1)
式中,xi為第i個相點,d為嵌入維數,τ為延遲時間。
然后,給定適當閾值常數ε,計算遞歸值,構造遞歸圖:
(2)
為了更好地描述信號的特性,獲取遞歸點的分布規(guī)律,引入描述遞歸圖的4個遞歸參量:遞歸率Rrate、確定率Rdet、平均斜線長度Rlen以及熵Rentr。
(3)
(4)
(5)
(6)
式中,P(ε,l)和lmin分別為對角結構長度為l的數量和長度初值,Nl為長度大于lmin的對角線總數。
宮縮信號是一種典型的非平穩(wěn)信號。針對高頻噪聲,本文聯(lián)合經驗模態(tài)分解(Empirical Mode Decomposition,EMD)和形態(tài)學[8]進行分析,具體步驟如圖1所示。
圖1 去除宮縮信號高頻噪聲分量的步驟
首先,對原始宮縮信號進行EMD分解,得到一定數量的本征模態(tài)函數(Intrinsic Mode Function,IMF)。由于噪聲信號通常為零均值的,而宮縮信號為非零均值的。因此,只要將零均值信號分量進行濾波就可以有效去噪。使用T-檢驗時,進行如下假設:
(7)
式中,fIMF(i)指第i個IMF分量。通過挑選一定的顯著性水平α(一般為0.05),如果p值小于α,則否定零假設H0,支持假設H1。對所有的IMF分量進行T-檢驗,得到的零均值IMF分量和聯(lián)合濾波算法結合去除高頻噪聲,最后重構所有的IMF分量。
同時,利用平滑先驗算法(Smoothness Priors Approach,SPA)[9]去除信號基線漂移。該算法通過改變正則化參數調整截止頻率,計算量小且操作簡單。其中,宮縮信號的低頻截止頻率為0.003 Hz。宮縮信號高頻和低頻濾波后結果如圖2所示。通過圖2可以看出:濾波后,信號曲線平滑,高頻噪聲明顯去除,水平方向的趨勢得到有效校正。
圖2 宮縮信號濾波處理后波形對比
本文基于宮縮信號的一維形態(tài)和時域特征,構造了12個特征表示。表1詳細列出了7個形態(tài)特征參數的計算,另外5個時域特征分別是:峰值、持續(xù)時間、起始點到峰值點時間、峰值點到結束點時間以及幅值超過峰值60%的時間。同時,利用遞歸分析獲取各類型宮縮信號的遞歸圖,得到每一樣例的二維遞歸參數。并構造融合12個時間、形態(tài)特征和4個二維遞歸參數特征的16維特征向量。在遞歸參數的構造中,選取遞歸參數嵌入維數d=2,時間延遲τ=5,最近鄰居的固定數量k=5。表1中,M為信號的時間點,tstart為起始點,tend為結束點,μ為信號均值,σ為信號標準差。
表1 宮縮信號各形態(tài)特征參數計算公式定義
傳統(tǒng)支持向量機(Support Vector Machine, SVM)分類有2個問題,即數據集類別不平衡造成低準確度和手動設計特征的冗余帶來高運算量。因此,本文將合成少數類過采樣技術(Synthetic Minority Over-sampling Technique,SMOTE)[10],主成分分析算法(Principal Component Analysis,PCA)和SVM結合使用,提出SMOTE-PCA-SVM分類器,在數據輸入到SVM分類器之前就平衡原始數據集,有效避免分類器偏向多數類樣本,同時平衡后通過降維來減少在分類器上的訓練開銷。
SMOTE算法是一種改進的過采樣算法,用于類別不平衡數據集的處理,可有效緩解過擬合現象。對于少數類中每個樣本a,以特定距離度量(如歐氏距離)為標準計算它到少數類樣本集中所有樣本的距離,獲取其k近鄰;并根據樣本不平衡比例設置采樣倍率,對于每個少數類樣本a,從其k近鄰中隨機選擇若干個樣本,假設選擇的近鄰為b;最后,對于每個隨機選出的近鄰b,分別與原樣本按照如下公式構建新的樣本anew。
anew=a+rand(0,1)×(b-a)
(8)
PCA算法是一種使用最為廣泛的數據降維算法。它的主要思想是將n維特征映射到k維上,k維是全新的正交特征也被稱為主成分。
(1)將設計的n個特征融合成一個新的特征矩陣,通過特征矩陣的協(xié)方差矩陣計算得到相應的特征值及特征向量,從而確定主成分累積方差貢獻率(Cumulative Percent Variance,CPV):
(9)
式中,λi為對應的特征值,通常為保證主成分模型精度達到PCA的分析標準,σ默認為90%。
(2)根據主成分累積方差貢獻率確定主成分個數以及要變換的特征向量個數,確定變換矩陣。
(3)由提取的特征和所確定的變換矩陣得到多特征融合后的k維特征。
PCA算法處理后,特征矩陣既保留了主要特性,又降低了向量的維數,減少了后續(xù)數據的運算量,提高了分類性能。
SVM分類器通過非線性函數φ(x)將輸入樣本投射到高維空間,在高維特征空間中尋找間隔最大的超平面,實現更好的分類。SVM的目標優(yōu)化為:
(10)
式中,C為懲罰系數,w為法向量,b為位移量,ζi為松弛變量。為了避免SVM計算的復雜性,通常將問題轉化為對偶問題,引入拉格朗日乘子αi和ui,構建拉格朗日方程:
(11)
通過對式(10)求偏導,可以得到它的對偶形式,即一個二次規(guī)劃問題:
(12)
通常選擇懲罰系數C>0,利用序列最小優(yōu)化算法(Sequential Minimal Optimization, SMO)高效求解式(12)問題。該分類器可以通過定義核函數K將一般非線性問題轉換為線性問題:
(13)
本文中的數據來自Physionet提供的CTU-UHB intrapartum CTG(Cardiotocography)database數據庫[11],共包括552份宮縮數據,采樣頻率均為4 Hz。本文邀請2位經驗豐富的婦產專科醫(yī)生分別對實驗數據進行分析判斷,主要包括宮縮發(fā)生位置、宮縮曲線上升段時間以及曲線下降段時間。并要求醫(yī)生依據宮縮曲線特點確定強度標簽,包括3 433個輕度、680個中度、1 320個強度的宮縮。由于上述數據庫的宮縮信號未包含原始無噪信號,所以新增Fluke公司的PS320 Fetal Simulator模擬儀模擬產生的宮縮信號(含20例宮縮信號)作為驗證濾波效果的數據集,將其僅用于預處理效果驗證實驗中。
實驗的整體流程如圖3所示。首先,將提出的聯(lián)合濾波算法以及平滑先驗算法應用于CTU-UHB intrapartum CTG database庫中宮縮信號消噪預處理,為了表明所提聯(lián)合濾波算法具有較強的魯棒性,引入信噪比(Signal-noise Ratio,SNR)來比較不同濾波方法在模擬信號上的去噪效果;其次,將已經預處理后的CTU-UHB intrapartum宮縮信號利用遞歸分析,構造特征向量;最后,將歸一化的特征向量作為SMOTE-PCA-SVM的輸入,實現宮縮信號的有效分類。其中運用“OvR(One vs Rest)”技巧實現了基于SVM的宮縮信號多分類,并采用10折交叉驗證技術進行訓練和測試。懲罰參數C=1,選用線性核函數。將上述不同分類器的結果,使用準確度(Accuracy)、靈敏度(Sensitity)以及特異性(Specificity)[2]等指標來評價。
圖3 分類方法流程圖
(1)濾波算法效果驗證
將20例模擬儀模擬產生的宮縮信號作為濾波效果驗證的數據源,使用EMD法、形態(tài)學法、小波變換法、移動平均法以及聯(lián)合濾波法等不同的算法進行濾波,計算各算法的信噪比均值,其結果分別為13.073 dB,16.648 dB,17.545 dB,17.790 dB以及18.083 dB??梢钥闯觯郝?lián)合濾波算法的SNR更高,意味著這種方式處理宮縮信號的效果較好,具有較高的魯棒性。
(2)分類結果與分析
將CTU-UHB intrapartum CTG database數據庫的宮縮信號預處理后,采用SMOTE-PCA-SVM分類器訓練,并對10折交叉驗證后的結果取均值,結果如表2所示??梢钥闯觯核岱诸惙椒ㄌ幚砗蟮母黝悘姸葘m縮分類指標均高于95%,其中輕度宮縮數據的準確度甚至高達100%。
表2 基于SMOTE-PCA-SVM各類指標度量 %
為了驗證SMOTE-PCA-SVM分類器處理效果,本文對比了同一特征向量在不同分類器上的準確度,結果如圖4所示。SVM分類器和SMOTE-SVM分類器的分類效果對比發(fā)現:中輕度宮縮信號數量明顯高于中度宮縮信號數量,采用SMOTE-SVM分類器處理后,增加了少數類宮縮樣本的數量,使各類型宮縮數量一致,均采樣到3 433個。因此,能夠避免SVM分類器結果偏向多數類,使各類樣本的分類準確度取得明顯提升。
圖4 不同分類器處理準確度對比
SMOTE-SVM分類器和SMOTE-PCA-SVM分類器的分類效果對比發(fā)現:當宮縮特征向量使用CPV為90%的PCA處理后,特征維度從16維降低為6維,有效去除了冗余的特征,降低了特征向量的復雜度。分類結果中,強力宮縮的準確度雖略有下降,但中度宮縮的準確度卻得到很大程度地提升,平均精度也得到提升,明顯改善了分類器的結果。并且Python程序代碼運行10次的時間均值,由使用SMOTE-SVM分類器的0.412 7 s下降到使用SMOTE-PCA-SVM分類器的0.367 1 s,運行速度明顯加快,表明PCA處理后可以減少運算量。
最后,為了說明本文提出方法的有效性,將所設計的方法和其他已有文獻方法進行對比,圖5對比了不同分類方法不同指標的均值。其中1為基于規(guī)則的kNN分類器[2],2為基于SMOTE的kNN分類器[3],3為基于SMOTE的決策樹分類器[3],4為基于自適應濾波的決策樹分類器[4],5為本文所提方法只基于時間、形態(tài)特征的優(yōu)化SVM分類器,6為本文所提方法融合時態(tài)特征和遞歸特征的優(yōu)化SVM分類器。
圖5 不同分類方法處理指標對比
經PCA降維后,分類器6和分類器5的特征向量維數分別為6維和4維,且分類器6的準確度大于分類器5的準確度。這表明引入的部分二維遞歸特征是有效特征,能提高宮縮信號強度分類的準確度。從圖5可以看出:分類方法6獲得的分類準確度、靈敏度和特異性均高于其他方法,表明本文所提方法的分類效果更好。
本文對宮縮信號的強度類型進行研究,提出一種基于遞歸分析的分類方法。方法將遞歸特征和形態(tài)、時域特征融合起來,更全面地描述宮縮信號的信息。同時,將SVM分類器和SMOTE采樣及PCA降維結合起來,分類準確度、靈敏度和特異性高于現有算法。但是,在仿真實驗中發(fā)現,人工設計的有效特征參數仍是少數,大量無意義特征的計算導致資源的浪費,如何避免這一問題將是下一步的研究重點。