• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于HITON—PC算法的醫(yī)院病案首頁數(shù)據(jù)挖掘

      2018-05-15 08:31:14易三莉楊靜姚旭升謝穎夫賀建峰
      軟件導(dǎo)刊 2018年4期
      關(guān)鍵詞:因果關(guān)系數(shù)據(jù)挖掘

      易三莉 楊靜 姚旭升 謝穎夫 賀建峰

      摘 要:使用HITON-PC算法分析某甲級(jí)醫(yī)院2015年住院首案中記錄的非胰島素依賴型糖尿病及其它協(xié)同疾病之間是否存在因果性。HITON-PC算法是一種運(yùn)用條件獨(dú)立性檢驗(yàn)處理高維數(shù)據(jù)的因果分析算法,將其應(yīng)用于醫(yī)學(xué)數(shù)據(jù)挖掘中,能高效得出變量之間的因果關(guān)系。非胰島素依賴型糖尿病與冠狀動(dòng)脈粥樣硬化、高血脂、高血壓、高血壓II期和高血壓III期之間有著因果關(guān)系。通過因果關(guān)系分析,可以很好地從大量臨床數(shù)據(jù)中發(fā)現(xiàn)疾病間的潛在因果性,為相關(guān)疾病的臨床診斷提供輔助,具有很強(qiáng)的實(shí)用性。

      關(guān)鍵詞:數(shù)據(jù)挖掘;HITON-PC;因果關(guān)系

      DOI:10.11907/rjdk.172708

      中圖分類號(hào):TP391

      文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)004-0188-03

      Abstract:HITON-PC is an algorithm of causal analysis, and it is used to analyze the causal relationship between non-insulin dependent diabetes mellitus(NIDDM) and its cooperative diseases in the medical record data; it is also an algorithm of causal analysis which conducts high-dimensional data employed conditional independence test. HITON-PC is applied in medical data mining and it can effectively determine the causality between variables in medical data mining. There are a lot of causal relationships among NIDDM, hyperlipidemia and hypertension. Causality analysis is a good way to detect the potential causality between diseases from a large amount of clinical data.It can provide an auxiliary method for the clinical diagnosis of related diseases and plays a practical role in medical data mining.

      Key Words:data mining; HITON-PC; causal relationship

      0 引言

      近年來,大數(shù)據(jù)已成為科技界和企業(yè)界關(guān)注的熱點(diǎn),其可對(duì)數(shù)量巨大的數(shù)據(jù)作搜索、比較、聚類和分類等分析歸納,找出數(shù)據(jù)之間的關(guān)聯(lián)性。相關(guān)分析的目的是找出數(shù)據(jù)集里隱藏的相互關(guān)系網(wǎng)(關(guān)聯(lián)網(wǎng)),一般用支持度、可信度和興趣度等參數(shù)反映相關(guān)性[1]。大數(shù)據(jù)分析具有較高的容錯(cuò)性,其目的在于發(fā)現(xiàn)整體數(shù)據(jù)中某些指標(biāo)之間的相關(guān)性,然后用分析結(jié)論改善因果關(guān)系分析的前提假設(shè),并運(yùn)用大數(shù)據(jù)分析具有的預(yù)測功能解決現(xiàn)實(shí)社會(huì)中的實(shí)際應(yīng)用問題[2]。

      因果關(guān)系闡釋了事物間的本質(zhì)聯(lián)系,在日常生活中,人們更多依靠經(jīng)驗(yàn)判定事物間的因果關(guān)系,比如抽煙會(huì)導(dǎo)致肺癌。雖然目前因果關(guān)系還沒有一個(gè)能被廣泛接受的嚴(yán)格定義,對(duì)其到底是客觀世界本身的屬性,還是人的意識(shí)為理解世界而創(chuàng)造出來的主觀概念,人們還未達(dá)成共識(shí)。但隨著大數(shù)據(jù)時(shí)代的來臨,人們依然希望能從已有數(shù)據(jù)中客觀分析事物間的因果關(guān)系[3]。如何利用已有信息判定事物間的因果關(guān)系是科學(xué)領(lǐng)域的一個(gè)基本問題,

      HITON-PC即是一個(gè)經(jīng)典的因果分析方法,它能高效地分析高維數(shù)據(jù)的因果性[4]。

      1 HITON-PC

      1.1 HITON-PC算法概念

      HITON-PC基于因果馬爾可夫假設(shè)發(fā)現(xiàn)變量間的因果關(guān)系,應(yīng)用條件獨(dú)立性測試識(shí)別出變量間的強(qiáng)關(guān)聯(lián)與持久關(guān)聯(lián)。該算法可靠性的關(guān)鍵在于完全覆蓋條件獨(dú)立性測試,使持續(xù)的關(guān)聯(lián)性可以被正確識(shí)別。然而,進(jìn)行所有條件獨(dú)立測試通常是不可行的,因?yàn)槠溥\(yùn)算量較大、效率低。因此,約束算法設(shè)計(jì)的一個(gè)主要目標(biāo)就是減少條件獨(dú)立性測試數(shù)量,同時(shí)生成可靠結(jié)果。HITON-PC即作為一種約束算法被提出,該算法可運(yùn)用隊(duì)列的方法減少條件獨(dú)立性測試數(shù)量[5]。

      1.2 HITON-PC算法實(shí)現(xiàn)步驟

      HITON-PC算法步驟如下:

      輸入:集合D,用于存儲(chǔ)預(yù)測變量集X={X1,X2,… ,Xm}和目標(biāo)Z;maxkα為條件獨(dú)立測試的顯著性水平。

      輸出:集合PC,由Z的雙親和孩子組合{X1,X2,… ,Xm}的子集。

      1:let PC=

      2:let OPEN包含與Z相關(guān)的變量

      3:while OPEN≠ do

      4:從OPEN中移除第一個(gè)變量X

      5:將X插入到PC的最后

      6:for每個(gè)SPC\\{X} and S≤maxk do

      7: if X和Z在顯著水平α下獨(dú)立于給定的S then

      8: 從PC 中移除X并且回到while循環(huán)

      9: end if

      10:end for

      11:end while

      12:對(duì)于每個(gè)在PC中的變量X do

      13:for 每個(gè) SPC\\{X}和SPC

      14: if X和Z在顯著水平α下獨(dú)立于給定的S then

      15:從 PC 中移除 X

      16: end if

      17:end for

      18:end while

      19:output PC

      (1)最初PC集為空(行1),創(chuàng)建OPEN列表用于保存與目標(biāo)變量Z(行2)相關(guān)的預(yù)測變量。OPEN中的變量根據(jù)關(guān)聯(lián)強(qiáng)度以降序排序,隊(duì)列總是移除第一個(gè)變量(其在當(dāng)前OPEN隊(duì)列中具有最高的關(guān)聯(lián)強(qiáng)度)。因此,OPEN作為優(yōu)先隊(duì)列運(yùn)行。

      (2)排序的目的是盡可能包括PC集合中會(huì)成為雙親或孩子的變量,以便算法可以更早且有效地修剪其它變量。HITON-PC利用預(yù)測變量與Z之間的關(guān)聯(lián)強(qiáng)度作為第一準(zhǔn)則,與Z相關(guān)性高的變量排名將靠前。另一個(gè)準(zhǔn)則是判斷預(yù)測變量和Z之間的條件依賴強(qiáng)度[6]。給定一對(duì)變量,這對(duì)變量有很多條件用來測試條件依賴性,并且使用最小依賴度排序。文獻(xiàn)[5]、[7]中的關(guān)聯(lián)強(qiáng)度即是一個(gè)簡單而有效的標(biāo)準(zhǔn)。

      (3)在初始化階段之后,算法將包含和消除策略交織到OPEN隊(duì)列中的變量,以達(dá)到擴(kuò)展PC集的效果(行3~11)。

      (4)在while循環(huán)的每次迭代期間,OPEN隊(duì)列前的變量被刪除后保存在PC集中(行4和5),然后消除步驟(行6~10)立即測試新添加的變量X是否獨(dú)立于當(dāng)前給定PC列表中的目標(biāo)變量。一旦發(fā)現(xiàn)X與給定PC子集(不包括X)的目標(biāo)變量無關(guān),則從PC集中消除X,并且開始新的迭代。如果在PC隊(duì)列中的每個(gè)子集小于或等于maxk變量,則X依賴于目標(biāo)變量,且暫時(shí)保持在PC集中。

      (5)當(dāng)OPEN為空時(shí),HITON-PC再次執(zhí)行消除步驟,但此時(shí)要判斷PC集中的每個(gè)變量是否滿足條件(行12~18)。也即是說,對(duì)于當(dāng)前PC集的每個(gè)變量X,如果有子集S,子集S儲(chǔ)存小于maxk的變量,則符合條件變量,X獨(dú)立于目標(biāo)變量將會(huì)從PC集中消除;如果X不存在這樣的子集,則X將永久保持在PC集中。注意,在該步驟期間,調(diào)節(jié)集合SPC\\{X},但SPC

      2 HITON-PC復(fù)雜性

      在HTION-PC算法中,花費(fèi)的時(shí)間可大致分為兩部分:①初始化時(shí)間(行2);②在while與for循環(huán)中進(jìn)行的條件獨(dú)立性測試時(shí)間。

      3 HITON-PC算法在醫(yī)學(xué)數(shù)據(jù)挖掘領(lǐng)域的應(yīng)用

      3.1 醫(yī)學(xué)數(shù)據(jù)挖掘

      醫(yī)學(xué)數(shù)據(jù)挖掘是計(jì)算機(jī)技術(shù)、人工智能、統(tǒng)計(jì)學(xué)等與現(xiàn)代醫(yī)療相結(jié)合的產(chǎn)物,也是提高醫(yī)療服務(wù)質(zhì)量和醫(yī)院管理水平的需要,具有廣闊的應(yīng)用前景。與僅限于某一專項(xiàng)領(lǐng)域知識(shí)的醫(yī)療專家系統(tǒng)不同,醫(yī)學(xué)數(shù)據(jù)挖掘面向整個(gè)醫(yī)學(xué)數(shù)據(jù)庫或醫(yī)學(xué)信息集合提供知識(shí)和決策,是醫(yī)療決策支持系統(tǒng)的重要組成部分[8]。將數(shù)據(jù)挖掘理論應(yīng)用于醫(yī)學(xué),通過對(duì)海量醫(yī)學(xué)數(shù)據(jù)進(jìn)行分析,總結(jié)各種醫(yī)治方案的療效,提取隱含其中的有價(jià)值的信息,可更好地為醫(yī)院的決策管理、醫(yī)療、科研和教學(xué)服務(wù),對(duì)于醫(yī)生明確診斷、病患治療以及疾病研究等都具有極其重要的意義[9]。

      3.2 數(shù)據(jù)來源

      數(shù)據(jù)源:2015年某三甲醫(yī)院住院部首案的數(shù)據(jù),提取出“主要診斷”中患有2型糖尿病疾病類型的個(gè)案,總共3 724例。疾病編碼是依據(jù)國際疾病分類進(jìn)行編碼的,疾病名稱有很多,在本次分析中只選取疾病數(shù)量大于300的疾病種類。

      分析字段:“病案號(hào)”、“疾病編碼”、“主要診斷”、“疾病編碼1”、“其它診斷”、“疾病編碼2”、“其它診斷2”、“疾病編碼3”……

      3.3 分析結(jié)果

      分析環(huán)境:本文數(shù)據(jù)首先在IBM SPSS Statistics、IBM SPSS Modeler中進(jìn)行數(shù)據(jù)預(yù)處理,然后將清洗后的數(shù)據(jù)納入數(shù)據(jù)分析軟件R Studio建模實(shí)現(xiàn)。

      分析目的:分析2型糖尿病的協(xié)同疾病與2型糖尿病是否有因果關(guān)系。

      數(shù)據(jù)經(jīng)過HITON-PC算法分析之后,實(shí)驗(yàn)結(jié)果如表1所示。其中0為預(yù)測變量與目標(biāo)變量之間沒有因果關(guān)系,1為預(yù)測變量與目標(biāo)變量之間有因果關(guān)系。

      整理結(jié)果可知,2型糖尿病與冠狀動(dòng)脈粥樣硬化、高血脂、高血壓II期、高血壓III期有因果關(guān)系。

      變量之間的關(guān)系如圖1所示,該圖能全面反映出各變量之間的因果關(guān)系。

      4 結(jié)語

      數(shù)據(jù)挖掘技術(shù)的迅速發(fā)展為人們的生活帶來了巨大便利,數(shù)據(jù)挖掘技術(shù)也被越來越多行業(yè)采用,并取得了很好的效果。HITON-PC算法是一種運(yùn)用條件獨(dú)立性檢驗(yàn)處理高維數(shù)據(jù)的因果分析算法,將其應(yīng)用于醫(yī)學(xué)數(shù)據(jù)挖掘中,能高效得出變量之間的因果關(guān)系,從而發(fā)現(xiàn)疾病間的潛在因果性,為相關(guān)疾病的臨床診斷提供輔助。隨著理論研究的不斷深入,數(shù)據(jù)挖掘技術(shù)在疾病診斷和治療、醫(yī)學(xué)科研與教學(xué)以及醫(yī)院管理等方面必將發(fā)揮越來越重要的作用。

      參考文獻(xiàn):

      [1] 李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012,27(6):647-657.

      [2] 孫海龍,于劍光.大數(shù)據(jù)環(huán)境下相關(guān)關(guān)系分析改善因果關(guān)系分析[J].科技展望,2016,26(20):12.

      [3] Pearl J. Causality: models, reasoning,and inference[M]. England:Cambridge University Press,2000.

      [4] ALIFERIS C F, STATNIKOV A, TSAMARDINOS I, et al. Local causal and Markov blanket induction for causal discovery and feature selection for classification Part I: algorithms and empirical evaluation[J]. Journal of Machine Learning Research,2010(11):171-234.

      [5] LI J, LIU L, LE T D. Practical approaches to causal relationship exploration[J].Springerbriefs in Electrical and Computer Engineering,2015,35(1):13-24.

      [6] TSAMARDINOS I, BROWN L E, ALIFERIS C F. The max-min hill-climbing Bayesian network[J].structure learning algorithm. Machine Learning,2006,65(1):31-78.

      [7] ALIFERIS C F, STATNIKOV A, TSAMARDINOS I, et al. Local causal and Markov blanket induction for causal discovery and feature selection for classification part II:analysis and extensions[J]. Journal of Machine Learning Research,2010(11):235-284.

      [8] 朱凌云,吳寶明,曹長修.醫(yī)學(xué)數(shù)據(jù)挖掘的技術(shù)、方法及應(yīng)用[J].生物醫(yī)學(xué)工程學(xué)雜志,2003,20(3):559-562.

      [9] 汪菊琴.醫(yī)學(xué)數(shù)據(jù)挖掘綜述[J].電腦知識(shí)與技術(shù),2011,7(15):3495-3497.

      (責(zé)任編輯:黃 健)

      猜你喜歡
      因果關(guān)系數(shù)據(jù)挖掘
      玩忽職守型瀆職罪中嚴(yán)重不負(fù)責(zé)任與重大損害后果的因果關(guān)系
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      做完形填空題,需考慮的邏輯關(guān)系
      論刑法中提前的因果關(guān)系與延后的因果關(guān)系
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      幫助犯因果關(guān)系芻議
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      介入因素對(duì)因果關(guān)系認(rèn)定的影響
      數(shù)據(jù)挖掘的分析與探索
      河南科技(2014年23期)2014-02-27 14:18:43
      彭山县| 凤山县| 饶河县| 德钦县| 嵩明县| 随州市| 怀集县| 洛扎县| 杭锦旗| 平昌县| 宿迁市| 河曲县| 翁牛特旗| 英山县| 全椒县| 博客| 丹棱县| 晋城| 建德市| 瑞金市| 旬邑县| 上犹县| 仁化县| 兖州市| 句容市| 综艺| 台州市| 离岛区| 柘荣县| 衡阳县| 深圳市| 洱源县| 陆河县| 镇江市| 麻阳| 万源市| 苍山县| 徐水县| 乌拉特后旗| 荆门市| 仁化县|