陶泳任, 陳冠雄, 沈海斌
(1.浙江大學(xué) 超大規(guī)模集成電路設(shè)計(jì)研究所,浙江 杭州 310027;2.杭州易和網(wǎng)絡(luò)有限公司,浙江 杭州 310012)
隨著科學(xué)技術(shù)的發(fā)展,人們的生活水平得到顯著提高,人們更加關(guān)心健康問(wèn)題,尤其是高血壓、心臟病等問(wèn)題,這些疾病非常普遍,也常出現(xiàn)致命的危險(xiǎn)情況[1]。便攜式心電傳感器技術(shù)[2]在保健、治病領(lǐng)域是極具實(shí)用價(jià)值的,讓人們及時(shí)獲知自己身體狀況,并及時(shí)獲得治療。現(xiàn)代智能傳感器系統(tǒng)與以往傳統(tǒng)傳感器顯著不同之處在于:現(xiàn)代傳感器包含了比較完整的計(jì)算系統(tǒng),能夠在微小的設(shè)備上實(shí)現(xiàn)信號(hào)采集、信號(hào)處理等功能。心房肥大[3]是一種重要的心臟疾病。心房肥大分為左心房肥大、右心房肥大、雙房肥大。Cortes C等人根據(jù)統(tǒng)計(jì)學(xué)理論提出的支持向量機(jī)(su-pport vector machine,SVM)學(xué)習(xí)方法[5],近年來(lái)受到了國(guó)內(nèi)外學(xué)術(shù)界的廣泛重視,SVM本質(zhì)是根據(jù)訓(xùn)練樣本集構(gòu)造出最優(yōu)分類超平面,使得樣本集可以被該超平面盡可能正確地分開(kāi),并使離超平面最近的Vector與超平面之間的距離最大。選擇適用于心房肥大識(shí)別的核函數(shù)、擴(kuò)展其算法,讓SVM在心房肥大識(shí)別特定領(lǐng)域發(fā)揮得更出色。本文所研究的算法適用于便攜式心電傳感器的應(yīng)用。
分類器的分類準(zhǔn)確率常與訓(xùn)練樣本數(shù)據(jù)量密切相關(guān),由于心房肥大數(shù)據(jù)匱乏,故對(duì)小樣本情況進(jìn)行研究。文中使用MGH/MF數(shù)據(jù)庫(kù)中32例左心房肥大心電數(shù)據(jù)和100例正常心電數(shù)據(jù)作為訓(xùn)練和識(shí)別的數(shù)據(jù)[5]。在Matlab中對(duì)比了邏輯分枝判斷、模糊推理、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)模型4種不同分類方法在小樣本訓(xùn)練情況下的分類正確率。實(shí)驗(yàn)結(jié)果如表1所示。
表1 4種方法性能對(duì)比
邏輯分枝判斷法是最早用于心電信號(hào)分類的方法,這種方法模仿心電圖(ECG)專家對(duì)心電信號(hào)的診斷,對(duì)噪聲比較敏感。
模糊推理[6]中需要求解隸屬函數(shù),而隸屬函數(shù)求解沒(méi)有客觀的評(píng)定標(biāo)準(zhǔn),使得模糊推理在心電信號(hào)的識(shí)別中受到限制。
選取三層的神經(jīng)網(wǎng)絡(luò)[7],使用BP神經(jīng)網(wǎng)絡(luò)算法,并將神經(jīng)網(wǎng)絡(luò)用于識(shí)別。
神經(jīng)網(wǎng)絡(luò)和SVM都在心電識(shí)別中有廣泛的應(yīng)用,神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的容錯(cuò)性和魯棒性,但神經(jīng)網(wǎng)絡(luò)隱含層層數(shù)和網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)的選取沒(méi)有一定的理論依據(jù),這也影響了神經(jīng)網(wǎng)絡(luò)的發(fā)展。SVM是基于統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的分類器,是針對(duì)小樣本學(xué)習(xí)問(wèn)題的一個(gè)理論框架。SVM對(duì)模式分類的準(zhǔn)確率一般要高于神經(jīng)網(wǎng)絡(luò)。因此,采用SVM來(lái)實(shí)現(xiàn)心電診斷,以充分發(fā)揮SVM在模式識(shí)別上的優(yōu)勢(shì)。
數(shù)據(jù)集是在Matlab的Libsvm[8]下進(jìn)行訓(xùn)練的,仍然使用32例左心房肥大數(shù)據(jù)和100例正常心電數(shù)據(jù),使用了不同的參數(shù)經(jīng)過(guò)優(yōu)化的核函數(shù)來(lái)找到最適用于心房肥大識(shí)別的映射函數(shù),實(shí)驗(yàn)結(jié)果表明:高斯核函數(shù)的SVM產(chǎn)生了最少的錯(cuò)誤率,實(shí)驗(yàn)結(jié)果如表2所示。后文中分類器融合是基于高斯SVM基礎(chǔ)上進(jìn)行研究。
表2 4種算法準(zhǔn)確率比較
為了在總體上達(dá)到比單獨(dú)使用某一種分類器更好的性能,將不同的分類器結(jié)合起來(lái),發(fā)掘各自的優(yōu)點(diǎn)。由于不同的分類器適應(yīng)于不同的模式[9],本文還將構(gòu)建的分類器與其他融合的分類器進(jìn)行了比較,證明所設(shè)計(jì)的分類器是適用于心房肥大識(shí)別的。
設(shè)計(jì)融合分類器的目標(biāo)是讓輸出結(jié)果有更高的可信度,放棄那些離SVM超平面距離比較近的Vector的分類,這些心電的診斷不適合讓自動(dòng)分類器得出結(jié)論,還需要心電圖專家的更復(fù)雜的診斷,降低分類器錯(cuò)誤率,以此來(lái)提高分類器的可信度。
定義分類器拒絕分類的區(qū)域?yàn)榫芙^域,示意圖如圖1所示,在超平面一邊為-1,在超平面另一邊為1,在靠近超平面的區(qū)域設(shè)定一個(gè)拒絕域,在拒絕域范圍內(nèi)的Vector不作分類。
圖1 拒絕域示意圖
接著要研究權(quán)衡拒絕域設(shè)置的問(wèn)題。直觀上可以知道拒絕域越大,分類的準(zhǔn)確率越高,當(dāng)拒絕域包含了所有Vector空間,則分類器對(duì)所有Vector都進(jìn)行拒絕,此時(shí)可認(rèn)為分類準(zhǔn)確率達(dá)到100 %;拒絕域越小,分類器的分類準(zhǔn)確率會(huì)下降,當(dāng)拒絕域趨向于0時(shí),在超平面附近的Vector會(huì)出現(xiàn)錯(cuò)誤分類錯(cuò)誤的情況。從2個(gè)方面進(jìn)行實(shí)驗(yàn):拒絕域?qū)ΨQ性、拒絕域閾值計(jì)算。
選擇與超平面的距離為{0,0.1,0.2,0.4,0.7}的對(duì)稱超平面,形成拒絕域。實(shí)驗(yàn)結(jié)果如圖2所示,描述了拒絕域閾值與分類準(zhǔn)確率的關(guān)系。
圖2 拒絕率與錯(cuò)誤率關(guān)系圖
選擇與超平面的距離為{0,0.1,0.2,0.4,0.7}的正反方向兩個(gè)超平面,不同閾值兩兩組合形成非對(duì)稱拒絕域。實(shí)驗(yàn)結(jié)果如圖3所示,描述了拒絕域閾值與分類準(zhǔn)確率的關(guān)系。
圖3 拒絕率與錯(cuò)誤率關(guān)系圖
對(duì)稱拒絕域、非對(duì)稱拒絕域,閾值、錯(cuò)誤率之間的關(guān)系如圖4所示。在保證高準(zhǔn)確率、高可信度的情況下,選擇較小的拒絕域,因此,非對(duì)稱拒絕域是較好的選擇。
圖4 對(duì)稱與非對(duì)稱閾值比較
第二節(jié)中通過(guò)SVM與其他分類模式的比較,展現(xiàn)了SVM在小樣本識(shí)別上的優(yōu)勢(shì)。這里在基于GSVM的基礎(chǔ)上,證明SVM-R比SVM與其他分類器融合在心房肥大識(shí)別上更具優(yōu)勢(shì)。選取SVM和邏輯回歸(logistic regression,LR)融合的分類器SVM-LR[10],SVM和K最近鄰(K-nearest neighbor,K-NN)算法融合的分類器SVM-KNN分類器[11]作為比較對(duì)象。選取不同拒絕率,比較分類錯(cuò)誤率。實(shí)驗(yàn)結(jié)果如表3所示。
選擇非對(duì)稱拒絕域,選擇合適的拒絕閾值能達(dá)到較好的分類正確率與可信性,該分類器適合于心房肥大的診斷。
本文比較了基于統(tǒng)計(jì)模型的分類方法與其他的分類方法,小樣本情況下,統(tǒng)計(jì)模型在小樣本訓(xùn)練情況下優(yōu)化得更好,而且,本文將SVM與拒絕域分類器進(jìn)行融合,使得心房肥大的診斷結(jié)果更加具有可信度,減少因診斷錯(cuò)誤產(chǎn)生的醫(yī)療事故的可能性。將SVM-R分類器應(yīng)用到便攜式心電傳感器系統(tǒng)中,實(shí)現(xiàn)便攜式心房肥大識(shí)別是非常適用的。
表3 4種分類器比較
參考文獻(xiàn):
[1] 孫 燕,毛羽青,尹東屏,等.鹽城地區(qū)心腦血管疾病發(fā)病率特征及其預(yù)報(bào)方法初探[C]∥第 28 屆中國(guó)氣象學(xué)會(huì)年會(huì)論文集,2011.
[2] Chi Y M,Jung T P,Cauwenberghs G.Dry-contact and noncontact biopotential electrodes:Methodological review[J].IEEE Reviews in Biomedical Engineering,2010,3:106-119.
[3] 張夏琳,盧喜烈.心房心室肥大的心電圖診斷[J].江蘇實(shí)用心電學(xué)雜志,2013,22(3):643-652.
[4] Cortes C,Vapnik V.Support-Vector networks[J].Machine Learning,1995,20(3):273-297.
[5] Goldberger A L,Amaral L A N,Glass L,et al.PhysioBank,Phy-sioToolkit,and PhysioNet:Components of a new research resource for complex physiologic signals[DB/OL]:MGH/MF.[2000—06—13].http:∥circ.ahajournals.org/cgi/content/full/101/23/e215].
[6] Pavlopoulos S,Kyriacou E,Koutsouris D,et al.Fuzzy neural network-based texture analysis of ultrasonic images[J].Engineering in Medicine and Biology Magazine,IEEE,2000,19(1):39-47.
[7] Purushothaman G,Karayiannis N B.Quantum neural networks (QNNs):Inherently fuzzy feedforward neural networks[J]. IEEE Transactions on Neural Networks,1997,8(3):679-693.
[8] Sun F,Belatreche A,Coleman S A,et al.Evaluation of LibSVM and mutual information matching classifiers for multi-domain sentiment analysis[C]∥The 23rd Irish Conference on Artificial Intelligence and Cognitive Science,Dublin City University:Compu-ter Science Research Institute,2012:106-118.
[9] 劉遵仁,吳耿鋒.一種新的基于約簡(jiǎn)的多分類器融合算法[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(34):11-16.
[10] Chang Y I.Boosting SVM classifiers with logistic regression[J/OL].[2003—03-01].http:∥www.stat.sinica.edu.tw/library/c_tec_rep/pdf,2003.
[11] Uyar A,Gurgen F.Arrhythmia classification using serial fusion of support vector machines and logistic regression[C]∥4th IEEE Workshop on Intelligent Data Acquisition and Advanced Computing Systems:Technology and Applications,IDAACS 2007,IEEE,2007:560-565.