王國(guó)強(qiáng) 闞紅星 王宗殿
摘要:糖尿病對(duì)人類健康的危害十分嚴(yán)重,且患病人數(shù)逐年升高,但診斷正確率不高。收集中醫(yī)專家在診斷糖尿病時(shí)積累的大量寶貴臨床數(shù)據(jù),建立糖尿病醫(yī)藥數(shù)據(jù)庫(kù),在此基礎(chǔ)上綜合運(yùn)用多種數(shù)據(jù)挖掘技術(shù),開發(fā)出糖尿病診斷系統(tǒng)??梢愿鶕?jù)病人體檢信息自動(dòng)地診斷糖尿病,從而輔助醫(yī)生工作,提高工作效率,減少誤診概率。相比于單個(gè)數(shù)據(jù)挖掘技術(shù),利用群體智慧提高了診斷準(zhǔn)確度;此外還可以利用新增病人的數(shù)據(jù)進(jìn)行優(yōu)化,進(jìn)一步提高診斷準(zhǔn)確度。實(shí)驗(yàn)結(jié)果證明了系統(tǒng)的正確性和有效性。
關(guān)鍵詞:糖尿病醫(yī)藥數(shù)據(jù)庫(kù);中醫(yī)專家;糖尿病診斷系統(tǒng);數(shù)據(jù)挖掘技術(shù);群體智慧
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)23-5547-05
Diabetes Diagnosis System Integrated with a Variety of Data Mining Technology
WANG Guo -qiang,KAN Hong-xing,WANG Zong-dian
(School of Medical Information Technology, Anhui University of Traditional Chinese Medicine, Hefei 230031, China)
Abstract: Diabetes seriously hazards to human health, and the number of patients increase year by year, but the correct diagnosis rate is not high. Collect the much valuable clinical information in the process of diabetes diagnosis of TCM(Traditional Chinese Medicine) expert, es? tablish the diabetes medicine database, and combine various data mining technologies to develop a diabetes diagnosis software system. It can automatically diagnose diabetes based on the patient medical information, which can assist the work of a doctor, improve the work efficien? cy, and reduce the misdiagnosis probability. Compared to the single data mining technology, this system uses the wisdom of crowds to im? prove the diagnostic accuracy. Moreover, It can be optimized with the new patient data, and further improve the diagnostic accuracy. The experiment results testify the validity of the system.
Key words:diabetes medicine database; TCM(traditional Chinese medicine) expert; diabetes diagnosis system; data mining technologies; the wisdom of crowds
1概述
據(jù)統(tǒng)計(jì)數(shù)據(jù)顯示,截至2005年我國(guó)糖尿病患者已達(dá)3500萬(wàn)人,占世界糖尿病人群總數(shù)的1/5,患病率居世界第二位,并且以每天至少3000人的速度增加,每年增加超過(guò)120萬(wàn)人。預(yù)計(jì)到2010年,我國(guó)糖尿病人口總數(shù)將猛增至8000萬(wàn)至1億人[1-2]。目前我國(guó)年齡在35歲~74歲的成人糖尿病的診斷率僅為23.6%。就是說(shuō),有3/4的病人不知道自己患了糖尿病。在就診病人中,治療達(dá)標(biāo)的病人僅占33%。大多數(shù)病人只有被動(dòng)地等到出現(xiàn)并發(fā)癥時(shí)才去就醫(yī)。我國(guó)糖尿病防治狀況更不容樂(lè)觀[3]。
根據(jù)上述的資料顯示,我國(guó)的糖尿病患者無(wú)論從人數(shù)規(guī)模還是增長(zhǎng)比率都相當(dāng)驚人,但是相對(duì)應(yīng)的提前檢測(cè)和病后治療卻處于嚴(yán)重不足的情況。如何解決這個(gè)落差,關(guān)系到我們的全民健康和社會(huì)進(jìn)步。
糖尿病中醫(yī)專家在診斷糖尿病的過(guò)程中積累了大量的、寶貴的臨床信息資源(如病人資料、專家經(jīng)驗(yàn)等),而數(shù)據(jù)挖掘技術(shù)能從大量的數(shù)據(jù)資源中挖掘出深層次的、隱含的、有價(jià)值的知識(shí)。因此如果將大量的臨床信息資源整合到醫(yī)藥信息數(shù)據(jù)庫(kù)中,然后將數(shù)據(jù)挖掘技術(shù)應(yīng)用到醫(yī)學(xué)信息數(shù)據(jù)庫(kù)中,可以挖掘出其中的醫(yī)學(xué)診斷規(guī)則和模式,從而輔助醫(yī)生特別是年輕醫(yī)生進(jìn)行疾病診斷。數(shù)據(jù)挖掘還可能挖掘出一些潛在的、隱含的、甚至中醫(yī)專家都沒(méi)有發(fā)現(xiàn)的知識(shí),從而能幫助醫(yī)生優(yōu)化傳統(tǒng)的診斷方法和醫(yī)療方案。
2研究背景
國(guó)內(nèi)外已有一些基于數(shù)據(jù)挖掘方法的糖尿病診斷研究。
肖永華等收集了128例呂仁和教授診治的糖尿病患者的醫(yī)案,存儲(chǔ)于"中醫(yī)醫(yī)案數(shù)據(jù)庫(kù)"中,對(duì)糖尿病類型、分期、并發(fā)癥、病因、病位等的出現(xiàn)幾率及其關(guān)系進(jìn)行相關(guān)的查詢和分析總結(jié)[4]。該研究客觀反映了呂教授治療糖尿病的臨床思路與經(jīng)驗(yàn),利于專家學(xué)術(shù)思想的總結(jié),但沒(méi)有最終形成實(shí)用的糖尿病診斷預(yù)測(cè)系統(tǒng)。
(3)神經(jīng)網(wǎng)絡(luò)挖掘模型
圖3三種挖掘模型的結(jié)構(gòu)圖
2)利用糖尿病數(shù)據(jù)庫(kù)數(shù)據(jù)分別訓(xùn)練3種挖掘模型
在Visual Studio 2005中,針對(duì)3種挖掘模型,分別點(diǎn)擊菜單命令“挖掘模型|處理”,在打開的“處理挖掘模型”對(duì)話框中單擊“運(yùn)行”按鈕,即可使用視圖“view_diabetes_diagnosis”中的數(shù)據(jù)來(lái)訓(xùn)練挖掘模型,訓(xùn)練完成后將生成3個(gè)可以對(duì)病人數(shù)據(jù)進(jìn)行診斷的挖掘模型。
3)利用群體智慧綜合多種數(shù)據(jù)挖掘模型
我們現(xiàn)在總共有3個(gè)數(shù)據(jù)挖掘模型,對(duì)于一個(gè)新的病人信息,每一個(gè)挖掘模型都能判斷出來(lái)一個(gè)診斷結(jié)果,當(dāng)3個(gè)挖掘模型得出的診斷結(jié)果不一致,我們采用群體智慧的辦法,即“三選二”,以占大多數(shù)的診斷結(jié)果為準(zhǔn)。這也符合我們?cè)谌粘I钪小吧贁?shù)服從多數(shù)”的原則。
4.1系統(tǒng)測(cè)試的診斷準(zhǔn)確度分析
下面的圖4分別列出了決策樹模型、關(guān)聯(lián)規(guī)則模型、神經(jīng)網(wǎng)絡(luò)模型、以及利用群體智慧的綜合模型的診斷準(zhǔn)確度圖。從圖中可以看到,相比于單個(gè)數(shù)據(jù)挖掘模型來(lái)說(shuō),使用群體智慧的綜合模型可以一定程度上提高診斷的準(zhǔn)確度。4.2系統(tǒng)優(yōu)化的診斷準(zhǔn)確度分析
由于糖尿病數(shù)據(jù)庫(kù)中的病人數(shù)據(jù)不足,可能會(huì)導(dǎo)致系統(tǒng)的準(zhǔn)確度不是很高,但本系統(tǒng)可以利用新增病人數(shù)據(jù)不斷地自我訓(xùn)練調(diào)整模型,逐步提高診斷的準(zhǔn)確度。
優(yōu)化的過(guò)程如下:當(dāng)有新的病人數(shù)據(jù)時(shí),先利用該系統(tǒng)得出一個(gè)診斷結(jié)果,再由中醫(yī)專家對(duì)系統(tǒng)的診斷結(jié)果進(jìn)行修正,并將修正后的數(shù)據(jù)加入到糖尿病數(shù)據(jù)庫(kù)中。如果發(fā)現(xiàn)系統(tǒng)的診斷結(jié)果和專家的不一致,則立即利用新的糖尿病數(shù)據(jù)庫(kù)重新訓(xùn)練,得到一個(gè)新的綜合模型;如果發(fā)現(xiàn)系統(tǒng)的診斷結(jié)果和專家的一致,可以暫緩重新訓(xùn)練,當(dāng)積累到一定個(gè)數(shù)的新數(shù)據(jù)后再重新訓(xùn)練,得到一個(gè)新的綜合模型。然后再使用新的綜合模型去診斷病人,如此重復(fù)。
為了證明優(yōu)化過(guò)程的有效性,我們將現(xiàn)有的糖尿病數(shù)據(jù)分成兩份,一份占80%,先用這部分?jǐn)?shù)據(jù)訓(xùn)練得到一個(gè)綜合模型,另一
糖尿病中醫(yī)專家在診斷糖尿病的過(guò)程中積累了大量的、寶貴的臨床信息資源,如何在這大量的數(shù)據(jù)資源中挖掘深層次的、隱含的、有價(jià)值的知識(shí),是一個(gè)難題。該文基于安徽中醫(yī)附院的糖尿病診斷相關(guān)數(shù)據(jù),建立基于SQL Server 2005的糖尿病醫(yī)藥數(shù)據(jù)庫(kù),然后在此基礎(chǔ)上綜合Visual Studio 2005中的多種數(shù)據(jù)挖掘模型來(lái)診斷糖尿病,這種利用群體智慧的綜合模型的診斷準(zhǔn)確度將比單個(gè)模型的診斷準(zhǔn)確度要高。該系統(tǒng)在投入使用后,隨著患者及其家屬信息以及專家知識(shí)的增加,還能自適應(yīng)地改進(jìn)和重新訓(xùn)練模型,從而進(jìn)一步增加其診斷準(zhǔn)確度。實(shí)驗(yàn)結(jié)果證明了其正確性和有效性。
下一步的工作包括:改進(jìn)系統(tǒng)的人機(jī)界面,方便醫(yī)護(hù)人員使用;加入更多的數(shù)據(jù)挖掘模型。