• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)挖掘技術(shù)在高血壓病種上的應(yīng)用研究

      2015-10-24 11:06甘昕艷等
      電腦知識與技術(shù) 2015年5期
      關(guān)鍵詞:電子病歷關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

      甘昕艷等

      摘要:近十年來我國衛(wèi)生信息化建設(shè)已取得了飛速的進展,信息系統(tǒng)應(yīng)用水平不斷提升,大量的醫(yī)學(xué)信息被科學(xué)的記錄下來,如何從這些醫(yī)學(xué)數(shù)據(jù)資源挖掘出深層次的、隱含的、有價值的知識,就變得越來越重要。該文在對各種數(shù)據(jù)挖掘算法進行分析研究的基礎(chǔ)上,選擇IBM SPSS Modeler作為數(shù)據(jù)挖掘平臺,以某社區(qū)醫(yī)院電子病歷作為數(shù)據(jù)源,利用不同的挖掘算法對電子病歷系統(tǒng)中的數(shù)據(jù)進行研究。通過數(shù)據(jù)的采集、數(shù)據(jù)清理和數(shù)據(jù)篩選方法,結(jié)合常見的高血壓病案,用不同的挖掘模型進行比較分析,總結(jié)出各種算法的特點及適用范圍,得出適合這種常見病的挖掘模型,并給醫(yī)務(wù)人員提供簡單而有效的數(shù)據(jù)挖掘模型。

      關(guān)鍵詞:電子病歷;數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則

      中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1009-3044(2015)05-0001-04

      1 緒論

      1.1研究背景

      隨著計算機技術(shù)和數(shù)據(jù)庫技術(shù)的飛速發(fā)展,各種衛(wèi)生信息系統(tǒng)在醫(yī)學(xué)領(lǐng)域的廣泛應(yīng)用,由此積累下來的海量醫(yī)學(xué)數(shù)據(jù),在此海量的醫(yī)學(xué)數(shù)據(jù)背后隱藏著許多重要的有用信息,怎樣才能把深層次的、隱含的、有價值的知識從數(shù)據(jù)資源中把挖掘出來,這在當(dāng)今日趨重要。在國內(nèi),數(shù)據(jù)挖掘技術(shù)在醫(yī)療服務(wù)領(lǐng)域的研究有所報道,但到目前為止,針對于不同的醫(yī)學(xué)目標(biāo)實現(xiàn)醫(yī)學(xué)數(shù)據(jù)挖掘應(yīng)用,怎樣科學(xué)地選擇合適的數(shù)據(jù)挖掘算法,此類方法學(xué)研究在國內(nèi)尚還較少。

      臨床信息系統(tǒng)(CIS)中的電子病歷系統(tǒng)是以病人為主導(dǎo),包含所有橫向的、縱向的醫(yī)院信息和臨床信息數(shù)據(jù)的系統(tǒng)。如何從這些數(shù)據(jù)集中使用不同數(shù)據(jù)挖掘技術(shù)挖掘出各種疾病的成因以及它們之間的相互關(guān)系、和各種疾病的發(fā)展規(guī)律,并總結(jié)各種治療方案的診療效果,這對疾病的預(yù)防、診斷、治療和醫(yī)學(xué)研究意義非常重大。本文是基于SPSS Modeler軟件平臺的基礎(chǔ)上對醫(yī)學(xué)數(shù)據(jù)進行規(guī)則的挖掘和知識探索。

      1.2 國內(nèi)外數(shù)據(jù)挖掘的應(yīng)用及研究現(xiàn)狀

      在國外,目前在金融領(lǐng)域、生物工程領(lǐng)域、企業(yè)分析以及網(wǎng)絡(luò)信息搜索等許多領(lǐng)域數(shù)據(jù)挖掘技術(shù)都有了很好的應(yīng)用[1]。國際知名調(diào)查機構(gòu)通過技術(shù)調(diào)查,認為未來五年內(nèi)數(shù)據(jù)挖掘和并行處理體系將擠在十大新興技術(shù)投資焦點的前列,“數(shù)據(jù)挖掘和人工智能”將列在首位的。在我國,數(shù)據(jù)挖掘技術(shù)最早在如中國海關(guān)集團、人民銀行、上海通用汽車等少數(shù)實力雄厚的國企或外資企業(yè)中得以充分應(yīng)用。也有少數(shù)應(yīng)用在經(jīng)濟上,如使用一般數(shù)量化模型如人工神經(jīng)網(wǎng)絡(luò)方法、回歸分析法和時間序列方法在經(jīng)濟上對于股價指數(shù)進行預(yù)測。目前在國內(nèi),數(shù)據(jù)挖掘技術(shù)在醫(yī)療服務(wù)領(lǐng)域的研究已有一些成果,但至今為止,怎樣科學(xué)地選擇適當(dāng)?shù)臄?shù)據(jù)挖掘算法,針對不同目標(biāo)的實際應(yīng)用挖掘,這方面的方法學(xué)在國內(nèi)研究還較尚少。

      1.3 研究意義

      本研究以某社區(qū)醫(yī)院電子病歷作為數(shù)據(jù)源,對數(shù)據(jù)挖掘算法在電子病歷系統(tǒng)中的應(yīng)用進行了研究。結(jié)合常見高血壓病案,通過使用不同的挖掘模型進行比較分析,總結(jié)出各種算法的特點及適用范圍,得出適合這常見病的挖掘模型,并給醫(yī)務(wù)人員提供簡單而有效的數(shù)據(jù)挖掘模型。同時通過研究探索性電子病歷數(shù)據(jù)挖掘技術(shù)的實現(xiàn),也將進一步做更復(fù)雜的數(shù)據(jù)查詢提供參考模式,這也給將來醫(yī)務(wù)人員、科研工作者使用更高層次的數(shù)據(jù)分析方法解決診療水平提供有效的科學(xué)的途徑,具有極其重要的現(xiàn)實意義。

      2 數(shù)據(jù)挖掘綜述

      2.1 數(shù)據(jù)挖掘定義

      從技術(shù)角度來解釋,數(shù)據(jù)挖掘就是通過自動分化分析數(shù)據(jù)倉庫的大量的、有噪聲的、模糊的、不完全的實際應(yīng)用數(shù)據(jù),進行提取人們不知道的隱性的知識和規(guī)律,依托于數(shù)據(jù)庫、數(shù)據(jù)統(tǒng)計和人工智能技術(shù)的發(fā)展,最大可能地利用已有信息和數(shù)據(jù),歸納性推理,挖掘潛在規(guī)律[2]。數(shù)據(jù)挖掘技術(shù)主要由三個部分,即數(shù)據(jù)、算法和技術(shù)、建模能力組成。

      2.2 常用的數(shù)據(jù)挖掘算法

      2.2.1 神經(jīng)網(wǎng)絡(luò)

      神經(jīng)網(wǎng)絡(luò)是由大量的簡單的處理單元組成的,自適應(yīng)非線性的大規(guī)模動力系統(tǒng),是神經(jīng)科學(xué)、統(tǒng)計學(xué)、計算機科學(xué)和物理學(xué)的交叉學(xué)科[3]。神經(jīng)網(wǎng)絡(luò)能夠有良好的自適應(yīng)、自學(xué)習(xí)和高容錯能力,并具有分布式存儲、并行處理以及聯(lián)想等特點。目前在常用的多種訓(xùn)練算法和網(wǎng)絡(luò)模型中,多層前饋型神經(jīng)網(wǎng)絡(luò)是應(yīng)用最廣泛的。

      BP網(wǎng)絡(luò)是一種由輸入層、輸出層和隱含層組成的單向傳播的多層前饋網(wǎng)絡(luò),如圖①所示,是目前在各行各業(yè)應(yīng)用最多的一種模型。

      2.2.2 決策樹

      決策樹算法是屬于的分類、回歸和關(guān)聯(lián)型算法,它主要用于對離散型和連續(xù)型的數(shù)據(jù)進行預(yù)測性的建模。

      決策樹的常用算法有:

      1) CART算法

      CART算法是一種二分遞歸分割技術(shù),是結(jié)構(gòu)簡單的二叉樹,它將總樣本集分成兩個子樣本集,使每個非子結(jié)點都有兩個分支[4]。

      2 )CHAID算法

      CHAID提供了一種在多個自變量中自動搜索能產(chǎn)生最大差異的變量方案。

      CHAID過程:建立細分模型,根據(jù)卡方值最顯著的細分變量將群體分出兩個或多個群體,對于這些群體再根據(jù)其他的卡方值相對最顯著的細分變量繼續(xù)分出子群體,直到?jīng)]有統(tǒng)計意義上顯著的細分變量可以將這些子群體再繼續(xù)分開為止。

      3 電子病歷分析數(shù)據(jù)集的建立

      高血壓是社區(qū)醫(yī)療中最為普遍和嚴(yán)重的疾病,其中高血壓并發(fā)癥多,病生理復(fù)雜,病癥不明顯,近年來發(fā)病率上升迅猛.社會經(jīng)濟危害性嚴(yán)重.從發(fā)展趨勢上看尤其值得重視。下面以高血壓形成病因作為研究對象,構(gòu)建一套簡單易行的計算機輔助醫(yī)學(xué)數(shù)據(jù)挖掘系統(tǒng)解決方案。

      數(shù)據(jù)集的預(yù)處理步驟主要由:數(shù)據(jù)集成(dataintergration)、數(shù)據(jù)清洗(dataClenanig)、數(shù)據(jù)消減(datareduetion)、和數(shù)據(jù)轉(zhuǎn)換(datatransformation)幾個步驟構(gòu)成。數(shù)據(jù)處理是數(shù)據(jù)挖掘是否能正確得到結(jié)果的最重要的一步。本章主要從電子病歷中提取原始數(shù)據(jù),使用SQL SERVER軟件和EXECL軟件進行清理數(shù)據(jù),篩選,根據(jù)數(shù)據(jù)挖掘所需的字段屬性值來分離出不同的分析數(shù)據(jù)表,再使用SPSS Modeler 14.2軟件對數(shù)據(jù)篩選,不斷訓(xùn)練數(shù)據(jù)集,達到數(shù)據(jù)挖掘模型的要求。

      3.1 數(shù)據(jù)來源

      本數(shù)據(jù)來源于某社區(qū)醫(yī)院慢性病檔案管理系統(tǒng)采集的數(shù)據(jù),其中儲存的數(shù)據(jù)庫文件為“社區(qū)醫(yī)療病歷.mdf ”文件。本數(shù)據(jù)庫包含有,有”病人”、“病史”、“醫(yī)生”、“體格檢查”、“醫(yī)院名稱”、“用戶”“用戶權(quán)限”、“權(quán)限類別”、“用戶權(quán)限組”等13個數(shù)據(jù)表表格。本案例主要使用”病人”、“病史”、“體格檢查”、“醫(yī)生”這幾個數(shù)據(jù)表來獲取數(shù)據(jù)源。

      3.2 數(shù)據(jù)預(yù)處理

      通過SQL SERVER數(shù)據(jù)庫管理系統(tǒng)把存放在Delphi數(shù)據(jù)環(huán)境中的原數(shù)據(jù),生成社區(qū)醫(yī)療病歷.mdf 數(shù)據(jù)庫,為了在更好地清洗數(shù)據(jù),本文把數(shù)據(jù)庫再轉(zhuǎn)換成EXECL表格。把需要的”病人”、“病史”、“體格檢查”、“醫(yī)生”表格分別轉(zhuǎn)化“高血壓分析表”表。

      3.3 數(shù)據(jù)清洗

      數(shù)據(jù)源是數(shù)據(jù)挖掘的關(guān)鍵,對采集的原始數(shù)據(jù)進行清洗,這樣才能保證信息源的數(shù)據(jù)質(zhì)量。首先把其中原數(shù)據(jù)庫中的12個信息表處理成需要使用的兩個電子表格“預(yù)測數(shù)據(jù)源”,“高血壓預(yù)測”,刪除不需要的字段,修改錄入錯,合并相同數(shù)據(jù)等,考慮到一些沒必要的因素,對各個表中刪除不必要的字段, 最終變成“預(yù)測數(shù)據(jù)源”表和“高血壓預(yù)測”表;鑒于線性分析的要求,把高血壓中的“初步診斷”字段修改為邏輯型或數(shù)據(jù)值。

      3.4 數(shù)據(jù)集成和變換

      使用SQL SERVER 2000,把這些表格轉(zhuǎn)換成EXECL文件表格形式。

      1) 轉(zhuǎn)換數(shù)據(jù)源:把社區(qū)醫(yī)療病歷數(shù)據(jù)庫.mdf 文件換成EXECL表格研究所需要的數(shù)據(jù)表格進行研究。轉(zhuǎn)換數(shù)據(jù)名為:醫(yī)療數(shù)據(jù)庫,使用其中的“病人”,“病史”和“體格檢查”數(shù)據(jù)中的數(shù)據(jù)源作為主要研究對象。

      2) 數(shù)據(jù)分析:使用SPSS Modeler軟件對數(shù)據(jù)表進行分析。經(jīng)分析,發(fā)現(xiàn)原數(shù)據(jù)的幾個表格數(shù)據(jù)不夠連接,沒有可比性,再返回EXECL表格進行數(shù)據(jù)處理,把體格檢查表和病人表、病史表的數(shù)據(jù)源部分數(shù)據(jù)按“病人編號”排序復(fù)制成一個表格,刪除“用藥”這一列,如圖2示:

      3) 數(shù)據(jù)處理:把現(xiàn)“病史”這一列分解成幾列,作為以后各個單項研究的基礎(chǔ),數(shù)據(jù)挖掘的需要,分別生成“預(yù)測數(shù)據(jù)源”表和“高血壓相關(guān)分析”表。

      3.5 數(shù)據(jù)獲取

      在EXECL表中對已處理的表應(yīng)用于SPSS Modeler中作為數(shù)據(jù)源,其中使用FIND()函數(shù),把原字段“初步診斷”中的結(jié)論轉(zhuǎn)換成“布爾”型數(shù)據(jù),過程如圖3:

      數(shù)據(jù)處理是數(shù)據(jù)挖掘是否成功或能否挖掘到有用數(shù)據(jù)結(jié)論的一個關(guān)鍵,本章利用數(shù)據(jù)庫軟件及表格處理軟件對原數(shù)據(jù)進行采集、清理、排除的研究,得到挖掘SPSS Modeler所需要的數(shù)據(jù)源,為下一章進行挖掘模型做好準(zhǔn)備。

      4 幾種常用挖掘算法在電子病歷數(shù)據(jù)中的分析研究

      4.1 人工神經(jīng)網(wǎng)絡(luò)法

      4.1.1 建立臨界值模型

      4.1.1.1采用RBFP神經(jīng)網(wǎng)絡(luò)模型對高血壓進行預(yù)測分析

      此模型是用相關(guān)的數(shù)據(jù)來說明其他指標(biāo)對高血壓的成因影響。挖掘過程包括探索、數(shù)據(jù)準(zhǔn)備、訓(xùn)練。

      1)探索

      表示神經(jīng)元的數(shù)據(jù)字段包括:

      [病人編號\&年齡\&T(體溫)\&P\&R\&身高\&體重\&就診時間\&主訴\&現(xiàn)病史\&既往史\&是否有遺傳\&初步診斷\&]

      由于初步診斷對數(shù)據(jù)進行預(yù)測排除,選擇“年齡,體重,高壓,低壓”作為線性數(shù)據(jù),測試這些數(shù)據(jù)與結(jié)論是否成線性相關(guān),結(jié)果如圖4。

      3) 訓(xùn)練

      將數(shù)據(jù)導(dǎo)入IBM SPSS Modeler,根據(jù)需要建立工程,引入經(jīng)過處理的數(shù)據(jù)源,顯示數(shù)據(jù)源視圖,定義挖掘模型,最后部署項目并處理挖掘模型。經(jīng)過字段篩選,再制定訓(xùn)練規(guī)則,其訓(xùn)練規(guī)則使用如圖5所示的規(guī)則,規(guī)則可以使用的最大時間為15分鐘,準(zhǔn)確性要達到90%以上。

      4) 模型分析

      通過執(zhí)行上面規(guī)則的數(shù)據(jù)流,得到本模型的結(jié)果為圖6神經(jīng)網(wǎng)絡(luò)預(yù)測:

      從模型分析上顯示,身高,體重及年齡對高血壓的影響是最大的三個因素,并且結(jié)果直觀,易懂,從此分析結(jié)果看使用神經(jīng)網(wǎng)絡(luò)來預(yù)測高血壓病因是可行的,下面會進一步分析驗證其指標(biāo)。

      4.2 高血壓病因的決策樹-CHAID模型分析

      1)系統(tǒng)模型設(shè)計

      本文要研究高血壓的病因與哪些因素相關(guān),因此下面使用決策樹中的CHAID算法進行挖掘病案成因。決策樹中的CHAID算法提供了一種在多個自變量中自動搜索能產(chǎn)生最大差異的變量方案,其模型需要一個單一的目標(biāo)和一個或多個輸入字,它以因變量為根結(jié)點,對每個自變量(只能是分類或有序變量,也就是離散性的,如果是連續(xù)變量,如年齡,收入要定義成分類或有序變量)進行分類。

      2)模型的訓(xùn)練

      高血壓的病因CHAID模型挖掘測試,按上面的模型要求,處理好數(shù)據(jù)源,通過運行,結(jié)果顯示如圖7所示:

      圖形分析:使用CHAID模型測試的結(jié)果發(fā)現(xiàn)只有“身高”屬性對高血壓的病因形成是最主要的, 也就是說由根結(jié)點出發(fā),生成的組只有一個,根據(jù)屬性變量預(yù)處理的具體策略,如果僅有一個或兩個分組,則不做合并處理至于原因有可能是因為本文的數(shù)據(jù)源輸入及選取有一定的不準(zhǔn)確性,故此結(jié)果對此病例作用不大,不能為醫(yī)生提供預(yù)防病因的成因研究,所以此法對本病例不適合。

      通過上面的挖掘分析結(jié)果顯示,使用決策樹中的CHAID算法對高血壓的病因形成在本文的病案中結(jié)果都作為不合理處理。

      4.3 高血壓病因的線性模型分析

      若采用線性建模,使用以下字段作為輸入和目標(biāo), 作為關(guān)鍵輸入和輸出量,同時把初步診斷字段進行處理,因輸出目標(biāo)只能是邏輯型或數(shù)據(jù)值,因此把初步診斷為高血壓者改為數(shù)字1,其他改為數(shù)字0,進行預(yù)測,結(jié)果發(fā)現(xiàn)“年齡”字段對高血壓是影響最大的,結(jié)果如表1:

      最終的結(jié)果分析圖如圖8線性結(jié)果分析所示,其目標(biāo)結(jié)果的圖形表示如圖9線性目標(biāo)結(jié)果的圖形所示。由此可得知高血壓病成因與“年齡”和“體重”是相關(guān)性最大的。

      4.4模型驗證分析

      4.4.1 神經(jīng)網(wǎng)絡(luò)預(yù)測高血壓模型分析驗證

      經(jīng)過上面的使用神經(jīng)網(wǎng)絡(luò)預(yù)測高血壓模型預(yù)測分析,我們得到了以下的預(yù)測結(jié)果如圖10所示:

      從圖11結(jié)果得知,該預(yù)測的準(zhǔn)確度達到92%,此準(zhǔn)確度是可以作為我們評定這個模型是否成功的指標(biāo)之一,我們在訓(xùn)練模型中規(guī)定了大于90%以上的準(zhǔn)確度是可行的,同時我們在分析模型時其使用的模型規(guī)則,其置信度是基于預(yù)測的概率基礎(chǔ)上的:從結(jié)果中我們可以看到高血壓的形成與“身高”、“體重”、“年齡”這三個因素是最密切相關(guān)的,這說明結(jié)果是有一定的預(yù)測意義的。

      我們還可以轉(zhuǎn)換其神經(jīng)元模型顯示模式,選擇網(wǎng)絡(luò)圖形顯示,結(jié)果如圖12神經(jīng)元模型所示,根據(jù)此圖的樣式也可看出經(jīng)過一層隱藏層最后得到跟高血壓病癥成因相關(guān)的比較重要的元素是年齡、體重與身高這幾個指標(biāo),并且此指標(biāo)也與線性模型研究結(jié)果一致,這些圖形的顯示直觀易懂,因此神經(jīng)網(wǎng)絡(luò)模型分析高血壓成因的使用是成功的,并且簡單可行的。

      結(jié)果分析: 所以我們可以得到結(jié)果該關(guān)聯(lián)規(guī)則是“強關(guān)聯(lián)規(guī)則”,此其結(jié)果直觀易懂,操作簡單。

      5 結(jié)束語

      通過神經(jīng)網(wǎng)絡(luò)模型預(yù)測高血壓病發(fā)病成因,得到了影響高 (下轉(zhuǎn)第6頁)

      (上接第4頁)

      血壓成病的主要因素。本文通過采用線性回歸法、人工神經(jīng)網(wǎng)絡(luò)法和決策樹算法中的CHAID模型來診斷知識,得出線性回歸法與人工神經(jīng)網(wǎng)絡(luò)這些模型在本病案中均易被醫(yī)務(wù)人員使用者解讀;并總結(jié)得出神經(jīng)網(wǎng)絡(luò)模型是預(yù)測影響高血壓的主要因素病因的最合適預(yù)測算法,并且所獲知識的可靠程度以及準(zhǔn)確率明顯優(yōu)于其他算法,決策樹中的CHAID算法對高血壓的病因形成在本文的病案中結(jié)果都作為不合理處理,這是從使用者易理解性、判別分類準(zhǔn)確率和可靠性角度綜合之結(jié)果。

      參考文獻:

      [1] 易靜.醫(yī)院信息數(shù)據(jù)挖掘及實現(xiàn)技術(shù)的探索[D].重慶醫(yī)科大學(xué)博士論文,2007.

      [2] 周怡,王世偉.醫(yī)學(xué)數(shù)據(jù)挖掘--SQL SERVER2005案例分析[M].中國鐵道出版社,2008.

      [3] 丁小麗,楊濤,周金海. 利用人工神經(jīng)網(wǎng)絡(luò)分析疾病的影響因素一一以高血壓為例[J]. 醫(yī)學(xué)信息,2009(1):4-5.

      [4] 王友仁,張砦,崔江,等.儲劍波智能組卷系統(tǒng)的建模與算法研究[J].系統(tǒng)工程與實踐,2004(9):85-89.

      [5] 魏平,張元.一種求解組卷問題的遺傳算法[J].寧波大學(xué)學(xué)報(理工版),2002,15(2):47-50.

      [6] Kayawa M Sugita Y Morooka Sensor Diagnosis System Combining Immune Network and Leaning Vector ,1996,117(5):44-55.

      [7] 蘇新寧等.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘[M].清華大學(xué)出版社,2006.

      [8] 韓力群.人工神經(jīng)網(wǎng)絡(luò)教程[M].北京郵電大學(xué)出版社,2007.

      [9] Warren Thomthwaite擻據(jù)倉庫工具箱[M].清華大學(xué)出版社,2007.

      [10] 百度搜索網(wǎng) (http://www.biosou.com/index_newshow.php?newsid=70848)

      猜你喜歡
      電子病歷關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      天长市| 平谷区| 金平| 长葛市| 区。| 长沙县| 留坝县| 定远县| 肥西县| 清镇市| 荆门市| 信丰县| 德安县| 特克斯县| 商丘市| 伊通| 元氏县| 武清区| 墨竹工卡县| 乌鲁木齐市| 南岸区| 玉树县| 石楼县| 江津市| 潍坊市| 孝义市| 吉林省| 盐池县| 临沧市| 白银市| 金平| 定西市| 迁西县| 庆城县| 兰坪| 浦县| 航空| 金华市| 蓬溪县| 通州市| 淳化县|