• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于機器學習方法的心電信號分類研究

      2019-10-21 09:44章潔武東
      科技風 2019年16期
      關鍵詞:機器學習心律失常分類

      章潔 武東

      摘 要:近年來,心血管疾病已成為威脅人們生命的主要疾病,而心血管疾病患者早期發(fā)病時往往出現(xiàn)心律失常癥狀,因此早期檢測心律失常對提前預防心血管疾病,及早介入治療具有至關重要的意義。基于此,本研究利用小波分析方法對不同類型的心電序列進行去噪聲處理,再利用ARMA模型以及時間序列的方法對分解后的信號序列進行特征提取,將ARMA模型的系數(shù)作為心電信號的特征指標;結合決策樹分類、支持向量機分類和隨機森林分類機器學習方法對提取后的心電特征指標進行分類研究,并根據(jù)實驗結果對三種算法的性能進行比較分析。

      關鍵詞:心電信號;分類;ARMA模型;機器學習;心律失常

      據(jù)世界衛(wèi)生組織(WHO)統(tǒng)計,2016年全球死亡人數(shù)中,71%死于NCDs(非傳染性疾?。?4%緣于10大原因,而Ischaemic heart disease(缺血性心臟?。└呔影袷住?016年我國死于心血管疾病人數(shù)約占死亡總數(shù)的43%,心血管疾病已成為剝奪我國人民生命的主要元兇,。因而,加強對心血管疾病的預防、診斷和治療是控制死亡人數(shù)的關鍵,同時也是我國社會長治久安的基本需要。

      心律失常是心血管疾病的主要部分之一,其不僅會加重患者原有心臟疾病,而且還會導致患者突然死亡。本文主要針對心律失常的心電信號展開分類研究,心電圖(Electrocardiogram,ECG)是醫(yī)生臨床診斷心血管疾病的必要工具,其對心律失常的診斷具有重要價值。

      近年來,心電信號分類研究大多采用神經(jīng)網(wǎng)絡和支持向量機等傳統(tǒng)的統(tǒng)計模型,其分類的類別也大多局限在二分類。本研究采用計算速度顯著優(yōu)于神經(jīng)網(wǎng)絡模型的隨機森林算法進行四分類,并與支持向量機分類器相比,我們發(fā)現(xiàn)隨機森林對大樣本建模更具優(yōu)勢,分類的準確率也更高。

      1 數(shù)據(jù)來源與方法

      1.1 數(shù)據(jù)來源

      本文采用MIT-BIH 數(shù)據(jù)庫中MIT-BIH Arrhythmia Database(mitdb)作為研究的心電數(shù)據(jù)源,該數(shù)據(jù)庫總共有48條ECG記錄中,且每條記錄的總樣本點為65萬,其中25條記錄(編號從200到234)包括多種一些罕見但臨床上重要的現(xiàn)象。此外,數(shù)據(jù)庫中每個記錄樣本有兩個數(shù)據(jù)通道(即 MLII 導聯(lián)和胸導聯(lián) V1),由于心律失常在 MLII 導聯(lián)特征較明顯且質(zhì)量較好,故選取 MLII 導聯(lián)數(shù)據(jù)進行心電信號心拍的分類研究,并通過與專家注釋結果進行對比來評價實驗結果?;诖?,本文從200到234這25條心電記錄出發(fā),著手研究心律失常心電信號的分類。

      1.2 預處理

      心電信號在采集的過程中會受到心臟自身和外部因素的干擾,使心電信號的時間間期和波形上發(fā)生變化。因此,采集的心電信號通常需要去除基線漂移(SymbolcB@5hz)、肌電噪聲(10-300hz)和工頻噪聲(50hz)等干擾信號,從而提高醫(yī)療診斷的準確性。為了盡量降低噪聲對心電信號的影響,本文采用小波閾值去噪,以保證在濾除噪聲的同時盡可能保留原有心電信號的波形。

      小波閾值去噪是對信號進行正交小波變換,變換后的小波系數(shù)中含有大量的ECG信號的數(shù)據(jù),ECG中的噪聲的圖像分布情況與小波系數(shù)分布相同,其模擬具有合理性。小波系數(shù)大小不一,我們可以將絕對值小的設為0,相反,對絕對值大的,可以采用軟、硬閾值的方法對其進行保存下來或者進行壓縮。由此先得到小波系數(shù)(estimated wavelet coefficients,EWC)的估計值,再通過已得到的小波系數(shù)組成新的ECG信號,從而達到去噪的效果。

      從右圖中可以看到原始信號的圖像受到噪聲影響,導致心電信號的波形改變,在臨床上可能對醫(yī)生的分析判斷產(chǎn)生干擾。我們利用matlab統(tǒng)計軟件對信號進行小波分析,得到去噪后的信號圖像,由下圖可知,經(jīng)過去噪處理的信號圖像變得光滑,大大的減少了信號失真,以便于醫(yī)務工作人員對圖像進行判別分析,對提高患者的診斷效率具有重要意義。

      原始信號與去噪后的信號圖像對比圖

      1.3 樣本心拍的分割

      心律失常的心電信號往往在波形形態(tài)上表現(xiàn)異常,通常體現(xiàn)在每個心拍中,故我們對心律失常心電信號進行分類時,需要將心電信號分割成逐個心拍。在分割過程中,分割長度是影響最終信號分類的一個重要因素,基于心律失常的波形異常主要表征在 PR 間期異常和 QRS 波群,并結合心電信號時限特征,本文以 R 波為關鍵點,前后各截取150 個樣本點即301個樣本點作為樣本心拍,基本可以包含所有的波形特征。MIT-BIH 心律失常數(shù)據(jù)庫中,每個心拍都專家進行詳細標注,注釋包括 R 波位置、心律失常類型等。本文共選取正常心拍(N)、左束支傳導阻滯心拍(L)、右束支傳導阻滯心拍(R)、室性早搏心拍(V)四類心拍。

      1.4 特征提取

      特征提取的方法大體分為頻域分析和時域分析兩類。相比于頻域分析,時域分析方法更加直觀。時域分析方法中的自回歸移動平均模型(autoregressive moving average,ARMA),可以將相關時序轉化為獨立時序,從而利用對獨立時序進行統(tǒng)計處理的方法去處理相關時序。此外,ARMA(n,m)模型是一個平滑濾波器,對觀測數(shù)據(jù)能夠自主進行平滑和濾波,進一步達到去噪效果,估計出觀測數(shù)據(jù)的真值。蘊含在心電數(shù)據(jù)的取值大小及其先后順序的心電特征可由ARMA(n,m)模型的模型參數(shù)φi、θj和δ2ε刻畫,基于ARMA(n,m)模型信息凝聚性,我們通過對心電數(shù)據(jù)建立ARMA(n,m)模型,提取擬合的模型參數(shù)作為每個樣本心拍的特征值。ARMA(n,m)的模型結構如下:

      在建模中,階次n和m的選取至關重要。無論是葛丁飛等人利用MDL和MDL敏感性函數(shù)作為定階準則,還是張婷婷等人提出的根據(jù)信噪比和AIC準則定階,結果都表明當n=4,m=2時,模型擬合的仿真信號與原始信號最為接近。故本研究選用ARMA(4,2)模型,并利用R語言中的arima()函數(shù)對樣本心拍數(shù)據(jù)建立模型,直接輸出擬合的模型系數(shù)。

      1.5 機器學習分類算法研究

      在上一節(jié)中,我們對每個心拍提取了6個特征,以便下面的心電信號分類。有監(jiān)督機器學習領域中包含許多分類的方法,本研究將著重比較分析決策樹、隨機森林、支持向量機這三種機器學習分類算法。

      1.5.1 分類決策樹

      經(jīng)典決策樹CART(Classification and Regression Trees)是由決策樹生成和決策樹剪枝兩部分組成。CART分類樹首先對所有自變量和所有分割點進行評估,使分割后組內(nèi)的數(shù)據(jù)因變量取值差異更小,該差異可由基尼指數(shù)(Gini index)度量,從而進行特征選擇生成二叉樹。為了避免得到一棵過大的樹,從而出現(xiàn)過擬合現(xiàn)象,我們采用后剪枝對訓練集生長的樹進行剪枝。針對本研究的四分類任務,CART首先將目標類別合并成兩個超類別,再逐個分類。

      假設有K個類,樣本點屬于第k類的概率為pk,則概率分布的基尼指數(shù)為:

      1.5.2 隨機森林

      隨機森林(random forest)是一種集成式的有監(jiān)督學習方法,基于結合多個較弱的分類器來創(chuàng)建很強的分類器。隨機森林對樣本單元和變量進行有放回隨機抽樣,從而生成大量決策樹(R語言中默認生成500棵),并用隨機組合所有的決策樹對樣本單元進行分類。

      假設樣本數(shù)據(jù)共有N個樣本單元,M個變量,則隨機森林分類的具體步驟如下:

      (1)從訓練集中隨機有放回抽取N個樣本單元,生成大量決策樹。

      (2)在每棵樹的每個節(jié)點隨機抽取m

      (3)每棵樹最大限度生長,無需剪枝(最小節(jié)點為1)。

      (4)將生成的所有決策樹組成隨機森林分類器,并用其對新的數(shù)據(jù)進行分類,分類結果由多數(shù)決定原則生成。

      隨機森林算法使用Gini系數(shù)度量變量的相對重要程度,即分割該變量時節(jié)點不純度(異質(zhì)性)的下降總量對所有樹取平均。

      1.5.3 支持向量機

      支持向量機(Support Vector Machine,SVM)近來被人們廣泛應用于分類問題,它的流行根植于其最先進的性能以及其背后優(yōu)雅的數(shù)學理論。支持向量機旨在創(chuàng)建一個稱為超平面(hyperplane)的平面邊界來劃分數(shù)據(jù)空間,由此對數(shù)據(jù)進行分類,并使得兩類中距離最近的點的間距盡可能大,即形成最大間隔超平面,在間距邊上的點被稱為支持向量。

      本研究中的樣本數(shù)據(jù)本身是非線性的,需使用核函數(shù)將數(shù)據(jù)投影到一個更高維的空間中,使其在高維線性可分。一般,核函數(shù)將一些變換應用于特征向量xi和xj,并進行點積:

      核函數(shù)的種類有很多,其中徑高斯徑向基核函數(shù)(Radial Basis Function,RBF)具有能應對類別標簽與預測變量間的非線性關系的優(yōu)良特性,對于許多類型的數(shù)據(jù)都運行得很好故本研究選用其作為核函數(shù)。設σ是核參數(shù),則高斯RBF核函數(shù)的公式為1-6。

      帶RBF核的SVM中還有一重要參數(shù)成本(Cost,C),不同的參數(shù)值對應著不同的分類模型,在建模時,R語言軟件變換參數(shù)σ和C的值建立不同的模型,以生成性能最優(yōu)的分類器。

      2 結果

      本研究從MIT-BIH ALrrhythmia Database的25條記錄中進行心拍分割,獲取5147個樣本心拍,其中N 1357個,L型心拍1201個,R型心拍1247個,V型心拍1342個。本研究中的三種分類算法都是根據(jù)訓練集建立模型,從而對驗證集進行預測,并與真實結果進行對比。由此訓練集與驗證集的劃分對分類結果的影響重大,本文從樣本數(shù)據(jù)中隨機抽取70%作為訓練數(shù)據(jù)集,而剩下的30%作為驗證數(shù)據(jù)集。為了直接對三種機器學習方法的分類能力進行比較分析,三種方法都采用相同的數(shù)據(jù)集。

      本研究采用準確率來評估各種分類器的性能,即分類器是否能對驗證集數(shù)據(jù)正確分類,并通過調(diào)用R語言中的相關函數(shù)進行計算。具體結果如下表所示。

      3 討論

      分類決策樹對噪聲有較好的魯棒性,并自動忽略不重要的特征,如本文中特征六被分類器排除。但是,模型有欠擬合或過擬合傾向,故分類的準確率相對較低。實驗結果表明,隨機森林分類的準確率比其他分類器高,其易于使用并具有更少的過擬合傾向,其性能不輸于功能強大的SVM,甚至更勝一籌。與隨機森林類似SVM的一大缺點是分類準則比較難以理解和表述。此外SVM在對大量樣本建模時不如隨機森林,但只要建立了一個成功的模型,對新樣本的分類就較為準確。

      本研究基于機器學習方法對正常心律心拍和三種心律異常的心電心拍進行分類,成功地將傳統(tǒng)的二分類拓展到四分類。進一步深化研究,提高分類的準確性,并將該方法應用到其他種類的心律失常信號的分類中,對醫(yī)生臨床診斷具有實踐意義。

      參考文獻:

      [1]World Health Organization.The Top 10 Causes of Death[Online].Available:https://www.who.int/news-room/fact-sheets/detail/the-top-10-causes-of-death,May,2018.

      [2]Tompkins W.Biomedical Digital Signal Processing[M].New Jersey:Prentice Hall,Englewood Cliffs,1993.

      [3]楊寶峰,蔡本志.心律失常發(fā)病機制研究進[J].國際藥學研究雜志,2010,37(2):81-88.

      [4]張揚,蔡建立.小波分析和ECG信號的檢測.南京理工大學學報,2005,29(10):223-225.

      [5]楊叔子,吳雅.時間序列分析的工程運用(上、下冊)[M].武漢:華中科技大學出版社,2007.

      [6]吳志勇,丁香乾,許曉偉,鞠傳香.基于深度學習和模糊C均值的心電信號分類方法[J].自動化學報,2018,44(10):1913-1920.

      [7]王艷.基于ECG的心律失常特征提取及分類算法的研究[D].蘇州大學,2018.

      [8]葛丁飛,李時輝.基于ARMA模型的ECG分類和壓縮[J].浙江科技學院學報,2004(01):7-13.

      [9]毛雪岷,張婷婷,蔡傳晰,李瓊.基于ARMA模型的心電聚類算法[J].中國生物醫(yī)學工程學報,2012,31(06):816-821.

      [10]張婷婷.基于ARMA模型的時間序列挖掘[D].合肥工業(yè)大學,2013.

      [11]陳義.心電信號的異常心律分類算法研究[D].重慶大學,2016.

      [12]王燕.時間序列分析:基于R[M].北京:中國人民大學出版社,2015.3.

      [13][美]布雷特·蘭茨(Brett Lantz),李洪成,許金煒,李艦譯.機器學習與R語言(原書第2版)[M].北京:機械工業(yè)出版社,2016.12.

      [14][美]卡巴科弗(Kabacoff,R.I.)著,王小寧等譯.R語言實戰(zhàn):第2版[M].北京:人民郵電出版社,2016.5.

      [15]A.Batra,V.Jawa,Classification of arrhythmia using conjunction of machine learning algorithms and ECG diagnostic criteria,Int.J.Biol.Biomed.1(2016)1-7.

      基金:安徽省高校自然科學研究重點項目(KJ2017A892)

      *通訊作者:武東。

      猜你喜歡
      機器學習心律失常分類
      按需分類
      教你一招:數(shù)的分類
      說說分類那些事
      基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
      前綴字母為特征在維吾爾語文本情感分類中的研究
      β受體阻滯劑治療心律失常的效果分析
      基于支持向量機的金融數(shù)據(jù)分析研究
      給塑料分分類吧
      凌源市| 吴川市| 稷山县| 天全县| 伊春市| 普兰县| 克山县| 桑日县| 新田县| 永昌县| 黑河市| 邛崃市| 巩留县| 台东市| 昌图县| 安吉县| 湖南省| 定安县| 五华县| 罗定市| 永川市| 尼木县| 嘉义县| 霍州市| 锡林郭勒盟| 南城县| 赣州市| 封开县| 怀远县| 如东县| 克什克腾旗| 林口县| 吉木萨尔县| 曲阳县| 六盘水市| 巴马| 雷波县| 平原县| 昌黎县| 泸州市| 逊克县|