陳 宋,黃立勤
(福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350108)
數(shù)據(jù)挖掘在胎兒心率上的規(guī)則預(yù)測研究*
陳 宋,黃立勤
(福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350108)
瞬時胎心率是監(jiān)測胎兒健康狀態(tài)的一種重要方式。當(dāng)前,監(jiān)控胎兒心率是重要而復(fù)雜的任務(wù),正確的自動化分類和規(guī)則提取是非常必要的。醫(yī)療診斷自動化系統(tǒng),不僅加強(qiáng)醫(yī)療保健,同時也可以降低成本。設(shè)計(jì)了一個有效挖掘規(guī)則,并根據(jù)給定的參數(shù)來預(yù)測胎兒的風(fēng)險(xiǎn)水平。采用C4.5、Classification and Regression Tree(CART)、隨機(jī)森林分類器來進(jìn)行系統(tǒng)比較。該系統(tǒng)的性能評價由分類精度、產(chǎn)生規(guī)則數(shù)量構(gòu)成。實(shí)驗(yàn)結(jié)果表明,基于隨機(jī)森林分類器的系統(tǒng)具有高精度(99.4%)的預(yù)測胎兒健康狀態(tài)的潛力,同時,產(chǎn)生的規(guī)則數(shù)量精簡且可供于醫(yī)生決策。
隨機(jī)森林;瞬時胎心率;規(guī)則提??;C4.5;CART
數(shù)據(jù)挖掘(也稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn))是一個過程,包括應(yīng)用數(shù)據(jù)分析和發(fā)現(xiàn)算法?,F(xiàn)今,數(shù)據(jù)挖掘在實(shí)踐中得到了有效的應(yīng)用,如行為檢測、醫(yī)療診斷等。越來越多的用戶已經(jīng)意識到數(shù)據(jù)挖掘在醫(yī)療中的意義?,F(xiàn)今,在醫(yī)療領(lǐng)域,臨床試驗(yàn)的結(jié)果往往是基于醫(yī)生的直覺分析和經(jīng)驗(yàn),這會導(dǎo)致錯誤和巨大的醫(yī)療成本,甚至加劇患者病情。目前,許多醫(yī)院擁有了一些病人的信息收集管理系統(tǒng)來保存病人數(shù)據(jù)。這些信息系統(tǒng)通常會產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)信息很少用于臨床決策。
本文專注于使用數(shù)據(jù)挖掘技術(shù)進(jìn)行胎心監(jiān)護(hù)數(shù)據(jù)預(yù)測。在實(shí)際使用中,觀察胎兒的健康狀態(tài)主要利用胎心監(jiān)護(hù)數(shù)據(jù),胎兒心率(Cardiotocogram,CTG)[1]包括兩個不同的信號,其瞬時胎心率(Fetal Heart Rate,F(xiàn)HR)和子宮活動的信息可用于早期識別病理狀態(tài)(即遺傳心臟不足、胎兒疼痛或缺氧等),協(xié)助醫(yī)生預(yù)測胎兒的健康狀態(tài)。
目前,醫(yī)生主要根據(jù)胎心監(jiān)護(hù)儀的設(shè)備顯示信息來判斷胎兒狀態(tài),無法知曉分類結(jié)果的規(guī)則。因此,本文研究將胎心數(shù)據(jù)應(yīng)用在可解釋分類器上,在提高數(shù)據(jù)分類精度的情況下,產(chǎn)生直觀的規(guī)則供醫(yī)生決策。
Miranda Lakshmi等人[2]挖掘?qū)W生的教學(xué)數(shù)據(jù)并利用ID3、C4.5和CART 算法來分析決策樹算法的性能。Seema Sharma等人[3]提出了一種基于C4.5分類器不同香農(nóng)熵來分類。Badr Hssina 等人[4]提出了經(jīng)典算法ID3,并詳細(xì)討論了C4.5,然后與CART分類器做詳細(xì)比較。Harvinder Chauhan和Anu Chauhan[5]使用WEKA[6]數(shù)據(jù)挖掘工具在不同大小的可用數(shù)據(jù)集上實(shí)現(xiàn)C4.5算法,同時,在包含有噪聲的數(shù)據(jù)、缺失的數(shù)據(jù)和大量的數(shù)據(jù)集上計(jì)算精度。但是,醫(yī)生僅僅依靠分類精度是遠(yuǎn)遠(yuǎn)不夠的,目前,越來越多的行業(yè)應(yīng)用數(shù)據(jù)挖掘技術(shù)在提高分類精度前提下提取數(shù)據(jù)規(guī)則,提取的信息可用于基于回歸的決策醫(yī)療數(shù)據(jù)分析。規(guī)則提取算法首先在神經(jīng)網(wǎng)絡(luò)下使用[7],但是該算法產(chǎn)生的是不可解釋的模型。隨后的幾年中,Nahla[8]和Chaves[9]等人提出基于支持向量機(jī)的規(guī)則提取算法,普遍基于黑盒模型,規(guī)則提取比較模糊。
正因?yàn)橐?guī)則提取能提高行業(yè)工作效率、收益和成本、保持最高水平的護(hù)理[10],所以本研究應(yīng)用數(shù)據(jù)挖掘技術(shù)提取胎心率規(guī)則并提高分類精度,能夠滿足醫(yī)院的短期目標(biāo)和長遠(yuǎn)需要。
2.1數(shù)據(jù)集
本研究所使用的數(shù)據(jù)集方法是從加州大學(xué)歐文分校(University of California Irvine,UCI)[11]上獲取,其中包括一些指示性的特征。三位產(chǎn)科醫(yī)生決定標(biāo)記CTG數(shù)據(jù)為正常或病理狀態(tài)且給出了每個屬性的解釋。CTG數(shù)據(jù)有21個特征,8個是連續(xù)的,13個是離散的。每個樣本標(biāo)記胎兒狀況正?;虍惓?。
2.2C4.5決定樹分類器
C4.5是機(jī)器學(xué)習(xí)算法中的一個分類決策樹算法。C4.5利用“信息增益”得到一個新的測量稱為“增益比”。正是基于此,C4.5采用了信息增益率這樣一個概念。信息增益率使用“分裂信息”值將信息增益規(guī)范化。分類信息定義如下:
(1)
信息增益率定義:
(2)
選擇具有最大增益率的屬性作為分裂屬性。不過該分類器在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。
2.3CART分類器
分類和回歸樹在20世紀(jì)80年代被提出,它的主要特征是屬性(節(jié)點(diǎn))的分割,并在每個終端節(jié)點(diǎn)分配給類結(jié)果(或回歸的預(yù)測值)時做出決策。CART使用基尼指數(shù)選擇最好的分裂節(jié)點(diǎn)。每個子節(jié)點(diǎn)重復(fù)搜索過程,繼續(xù)遞歸,直到不可能進(jìn)一步分裂或停止。在此過程中產(chǎn)生了大量的分支,而后,通過修剪分支產(chǎn)生最優(yōu)節(jié)點(diǎn)。
CART使用基尼索引來選擇具有最大值的屬性信息。基尼指數(shù)公式:
(3)
2.4隨機(jī)森林分類器
隨機(jī)森林分類器是利用多棵樹對樣本進(jìn)行訓(xùn)練并預(yù)測的一種分類器。簡單來說,隨機(jī)森林是由多棵CART樹構(gòu)成的。對于每棵樹,它們使用的訓(xùn)練集是從總的訓(xùn)練集中有放回采樣出來的,這意味著,總的訓(xùn)練集中的有些樣本可能多次出現(xiàn)在一棵樹的訓(xùn)練集中,也可能從未出現(xiàn)在一棵樹的訓(xùn)練集中。在訓(xùn)練每棵樹的節(jié)點(diǎn)時,使用的特征是從所有特征中按照一定比例隨機(jī)地?zé)o放回地抽取的。
決策樹中分裂屬性的兩個選擇度量:
(1)信息增益
如果選取的屬性為A,那么分裂后的數(shù)據(jù)集D的基尼指數(shù)的計(jì)算公式為:
(4)
對于特征選取,需要選擇最小的分裂后的基尼指數(shù)。也可以用基尼指數(shù)增益值作為決策樹選擇特征的依據(jù)。選擇具有最大信息增益的屬性為分裂屬性。
(2)基尼指數(shù)
分裂后的數(shù)據(jù)集D的基尼指數(shù)的計(jì)算公式為:
(5)
分裂屬性選擇規(guī)則:選擇具有最小基尼值的屬性為分裂屬性,在構(gòu)造過程中,該算法會遍歷所有可能的分割方法。不需要對決策樹生成過程進(jìn)行剪枝。
3.1測量性能標(biāo)準(zhǔn)
真負(fù)類率(True Negatives,TN)、假負(fù)類率(False Negatives,FN)、真正類率(True Positives,TP)和假正類率(False
表1 分類器測量值
Positives,FP)是用來分類性能計(jì)算的。敏感性和特異性均為統(tǒng)計(jì)學(xué)檢驗(yàn)測試樣本的度量。
在表1中,應(yīng)用測量給出了它們的數(shù)學(xué)表達(dá)式。
3.2實(shí)驗(yàn)結(jié)果
(1)精度對比
將所有CTG數(shù)據(jù)分為兩部分,一部分用于訓(xùn)練,其余部分用作試驗(yàn)組。該過程調(diào)用了10-fold交叉驗(yàn)證[12],避免選擇特殊的數(shù)據(jù)用于訓(xùn)練和測試。精度如表2所示。
表2 樣本分類精度的對比 (%)
(2)CTG數(shù)據(jù)集規(guī)則提取結(jié)果
字符為數(shù)據(jù)集的特征屬性,三類算法規(guī)則提取流程如圖1~圖3所示。英文字符為胎兒心率數(shù)據(jù)的特征屬性。冒號后的數(shù)值用數(shù)字2代表胎心率狀態(tài)糟糕,用數(shù)字1代表胎心率狀態(tài)正常。
3.3結(jié)果討論
實(shí)驗(yàn)表明,隨機(jī)森林的分類精度最高達(dá)到99.40%。同時,隨機(jī)森林產(chǎn)生的規(guī)則更加精簡,對于醫(yī)生的決策幫助更有益。
圖1 C4.5算法在CTG數(shù)據(jù)集上提取規(guī)則
圖2 CART算法在CTG數(shù)據(jù)集上提取規(guī)則
圖3 RF算法在CTG數(shù)據(jù)集上提取規(guī)則
胎心監(jiān)護(hù)記錄廣泛用于檢測胎兒健康狀態(tài),將其應(yīng)用在機(jī)器學(xué)習(xí)上,可以依據(jù)分析結(jié)果采取必要的行動。未來工作將主要進(jìn)行選取精準(zhǔn)的規(guī)則算法研究。
[1] 王乃平. 胎心監(jiān)護(hù)儀的產(chǎn)前應(yīng)用[J]. 河北聯(lián)合大學(xué)學(xué)報(bào)(醫(yī)學(xué)版), 2009,11(2):188-189.
[2] MARSDEN C A, JR O J B, GULDBERG H C. An analysis on performance of decision tree algorithms using student’s qualitative data[J]. International Journal of Modern Education & Computer Science, 2013,5(5):18-27.
[3] SHARMA S, AGRAWAL J, SHARMA S. Classification through machine learning technique: C4.5 algorithm based on various entropies[J]. International Journal of Computer Applications, 2014,82(16):28-32.
[4] CERVONE G, FRANZESE P, EZBER Y, et al. Risk assessment of atmospheric emissions using machine learning[J]. Natural Hazards & Earth System Sciences,2008,8(5):991-1000.
[5] CHAUHAN H, CHAUHAN A. Implementation of decision tree algorithm C4.5[J]. American Journal of Sports Medicine, 2013,39(12):2611-2618.
[6] HALL M, FRANK E, HOLMES G, et al. The WEKA data mining software: an update[J]. Acm Sigkdd Explorations Newsletter, 2009,11(1):10-18.
[7] GALLANT S I. Connectionist expert systems[J]. Communications of the Acm, 1988,31(2):152-169.
[8] BARAKAT N H, BRADLEY A P. Rule extraction from support vector machines: a sequential covering approach[J]. IEEE Transactions on Knowledge & Data Engineering, 2007,19(6):729-741.
[9] CHAVES A D C F, VELLASCO M M B R, TANSCHEIT R. Fuzzy rule extraction from support vector machines[C]. International Conference on Hybrid Intelligent Systems, IEEE,2005.
[10] SILVER M, SAKATA T, SU H C, et al. Case study: how to apply data mining techniques in a healthcare data warehouse[J]. Journal of Healthcare Information Management Jhim, 2001,15(2):155-164.
[11] BACHE K,LICHMAN M.UCI Machine Learning Repository[EB/OL]. http://archive.ics.uci.edu/Irvine,CA:University of California, School of Information and Computer Science. 2013.
[12] 鄧蕊,馬永軍,劉堯猛.基于改進(jìn)交叉驗(yàn)證算法的支持向量機(jī)多類識別[J].天津科技大學(xué)學(xué)報(bào),2007,22(2):58-61.
Study on rule prediction of data mining in fetal heart rate
Chen Song, Huang Liqin
(College of Physics and Information Engineering, Fuzhou University, Fuzhou 350108, China)
Fetal heart rate is an important way to monitor fetal health. At present, the monitoring of fetal heart rate is an important and complex task, and correct automatic classification and rule extraction are necessary. Medical diagnostic automation systems will strengthen health care, but also reduce costs. In this study, we designed an effective rule to predict the risk level of fetus. Then, we used C4.5, Classification and Regression Tree(CART), random forest classifier to evaluate the system. The performance of the system is evaluated by the classification accuracy, which produces the number of rules. The experimental results show that the system based on the random forest classifier has high accuracy(99.40%)in predicting the health status of the fetus, while the number of rules produced is simplified and can be used for decision making.
random forest; fetal heart rate(FHR); rule extraction; C4.5; CART
TP301.6;Q-332
A
10.19358/j.issn.1674- 7720.2017.19.005
陳宋,黃立勤.數(shù)據(jù)挖掘在胎兒心率上的規(guī)則預(yù)測研究[J].微型機(jī)與應(yīng)用,2017,36(19):16-18.
國家自然科學(xué)基金重點(diǎn)項(xiàng)目資助(61471124)
2017-04-01)
陳宋(1989-),男,碩士研究生,主要研究方向:人工智能與機(jī)器學(xué)習(xí)。黃立勤(1973-),通信作者,男,博士,教授,主要研究方向: 高性能計(jì)算、人工智能與機(jī)器學(xué)習(xí)、醫(yī)學(xué)圖像處理等。E-mail:lqhuangfzu@163.com。