• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于粗糙集的決策樹在醫(yī)療診斷中的應(yīng)用

      2017-12-20 10:06:16黃錦靜李夢天
      關(guān)鍵詞:約簡粗糙集決策樹

      黃錦靜,陳 岱,李夢天

      (中國礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與計(jì)算學(xué)院,江蘇 徐州 221116)

      基于粗糙集的決策樹在醫(yī)療診斷中的應(yīng)用

      黃錦靜,陳 岱,李夢天

      (中國礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與計(jì)算學(xué)院,江蘇 徐州 221116)

      網(wǎng)上醫(yī)療診斷越來越受歡迎,電子病例的數(shù)據(jù)也越來越多。如何從眾多的醫(yī)療數(shù)據(jù)中降低醫(yī)療數(shù)據(jù)的冗余度,快速提取有用的醫(yī)療價(jià)值,提高醫(yī)療診斷的速度和精度,成了一個(gè)大家研究的熱點(diǎn)問題。針對這一系列問題,研究了醫(yī)療系統(tǒng)關(guān)于肺癌診斷的一些數(shù)據(jù),建立了基于屬性依賴改進(jìn)的可分辨矩陣屬性約簡的C4.5算法,并用隨機(jī)森林進(jìn)行算法改進(jìn)。屬性約簡算法降低了醫(yī)療數(shù)據(jù)的冗余度,決策樹算法提取了肺癌診斷的一些規(guī)則,隨機(jī)森林提高了醫(yī)療診斷的準(zhǔn)確性。文中對肺癌診斷場景進(jìn)行了仿真實(shí)驗(yàn)與應(yīng)用,并將單純的C4.5算法,屬性約簡與單棵C4.5決策樹,屬性約簡和C4.5決策樹隨機(jī)森林進(jìn)行性能比較。實(shí)驗(yàn)結(jié)果表明,該方法加快了計(jì)算速度,提高了醫(yī)療診斷的精度。

      粗糙集;屬性約簡;可分辨矩陣;C4.5算法;決策樹

      1 概 述

      隨著計(jì)算機(jī)行業(yè)的快速發(fā)展,醫(yī)院也開始走向電子化時(shí)代,網(wǎng)上掛號(hào)、網(wǎng)上診斷、電子病例等,積累了海量的醫(yī)療數(shù)據(jù)。如何利用這些數(shù)據(jù)挖掘出醫(yī)療價(jià)值,即基于醫(yī)療的數(shù)據(jù)挖掘,成為一個(gè)非常熱門的研究領(lǐng)域。醫(yī)療數(shù)據(jù)的挖掘在醫(yī)療領(lǐng)域應(yīng)用的主要內(nèi)容包括醫(yī)療圖像數(shù)據(jù)挖掘、醫(yī)療管理檢索系統(tǒng)和電子病例的分析等。例如,在醫(yī)療圖像方面,文獻(xiàn)[1]提出了一種基于成像的神經(jīng)退行性疾病的分類方法,以提取突出的腦模式。在電子病例這種文本數(shù)據(jù)方面,文獻(xiàn)[2]提出了一種可變精度粗糙集模型的屬性約簡算法。

      特別是電子病例這類的文本數(shù)據(jù),數(shù)據(jù)量龐大,儲(chǔ)存了大量信息,是數(shù)據(jù)挖掘的一個(gè)熱點(diǎn)對象。病例隱含了眾多信息,記錄了很多病情癥狀,即很多屬性特征,針對不同的病情不同屬性的重要度也不同,但是電子病例里面往往包含很多屬性,而且有很多是冗余的。大家去醫(yī)院檢查都要做各種繁復(fù)的檢查,其實(shí)很多檢查項(xiàng)是冗余的,記錄了很多冗余的屬性,同時(shí)還增加了病人的費(fèi)用。針對這些問題,如何在海量的電子病例中刪除冗余癥狀,高效和準(zhǔn)確地建立決策樹,挖掘有重要應(yīng)用價(jià)值的特征數(shù)據(jù),是一個(gè)十分重要的課題。

      粗糙集理論是一種研究模糊性和不確定性問題的數(shù)學(xué)分析和數(shù)據(jù)挖掘工具。粗糙集的主要內(nèi)容是屬性約簡、規(guī)則提取,在很多領(lǐng)域應(yīng)用廣泛。例如,文獻(xiàn)[3]在郵件過濾領(lǐng)域提出了基于變精度粗糙集的決策樹分類算法,提高了郵件的正確分類率。文獻(xiàn)[4]提出了一種在多準(zhǔn)則排序方面的算法,即基于粗糙集的多準(zhǔn)則排序方法,非常高效。文獻(xiàn)[5]將粗糙集應(yīng)用到食品安全檢測領(lǐng)域,并且得到了很好的食品檢查效果,提高了食品檢查的速度,文獻(xiàn)[6]將粗糙集和BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,提高了糧食產(chǎn)量預(yù)測的精確度。文獻(xiàn)[7]為了提高圖像插值方法的插值效率,改善放大圖像邊緣的模糊現(xiàn)象,提出了一種基于粗糙集約簡的支持向量機(jī)圖像插值方法。文獻(xiàn)[8]為解決危險(xiǎn)品風(fēng)險(xiǎn)分析的一些問題,應(yīng)用粗糙集理論,加快了計(jì)算速度。文獻(xiàn)[9]為了能夠有效、快速地評價(jià)電網(wǎng)運(yùn)行的優(yōu)質(zhì)性水平,提出一種粗糙集與證據(jù)理論相結(jié)合的方法等。

      文中將粗糙集的屬性約簡算法應(yīng)用到肺癌診斷上。屬性約簡算法有很多,如通過去除某屬性后,判斷不可區(qū)分關(guān)系是否改變來決定是否應(yīng)刪除該屬性,但是這種算法得到的約簡集不完備。自從SKOWRON提出可分辨矩陣這一理論后[10],就出現(xiàn)了可分辨矩陣和粗糙集理論相結(jié)合的屬性約簡算法[11]。這種算法可以得到比較完備的約簡集,但是引入矩陣自然增加了運(yùn)算量,所以算法的復(fù)雜度高、耗時(shí)長。為了得到完備的最小約簡集,文中提出了一種基于屬性依賴改進(jìn)的可分辨矩陣的屬性約簡算法,減少了計(jì)算量,提高了運(yùn)算速度。

      經(jīng)過屬性約簡后的病例集屬性間的冗余度有所降低,將該病例集作為訓(xùn)練集來構(gòu)建決策樹,進(jìn)行規(guī)則提取。這樣相比直接構(gòu)建決策樹進(jìn)行規(guī)則提取,不僅減少了計(jì)算量,也減少了樹的深度,使規(guī)則更加準(zhǔn)確。決策樹是從一組無次序且無規(guī)則的元組中推理出一組以決策樹為表現(xiàn)形式的分類規(guī)則。它是一種自頂向下的遞歸方式,在樹的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值之間的比較,根據(jù)屬性值的不同從當(dāng)前節(jié)點(diǎn)向下進(jìn)行分支,而葉節(jié)點(diǎn)是最終要?jiǎng)澐值念?,即決策屬性。從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的一條路徑對應(yīng)著一條合取規(guī)則,而整個(gè)決策樹對應(yīng)著一組析取表達(dá)式規(guī)則。決策樹算法有很多,如基于粗糙集的變精度算法[12]和ID3算法[13],但是它們不能很好地處理連續(xù)值;C4.5算法是ID3算法的改進(jìn),能很好地處理連續(xù)值。因此文中采用C4.5算法通過信息熵增益率來構(gòu)建決策樹,同時(shí)為了提高準(zhǔn)確率引入了決策樹的隨機(jī)森林。

      2 問題定義

      就肺癌的醫(yī)療診斷數(shù)據(jù)進(jìn)行分析,定義病例樣本集S={U,C,D,V,f}。其中U為病例樣本的實(shí)例集合?,即論域;C為條件屬性;D為決策屬性;Vi為屬性i的值域;f為信息映射函數(shù),f:C(C∪D)→V。

      根據(jù)給定的訓(xùn)練集建立決策樹,找到肺癌診斷的推理規(guī)則,進(jìn)行智能診斷并預(yù)測病人的情況。因此如何建立快速且準(zhǔn)確的診斷規(guī)則,即如何快速準(zhǔn)確地建立決策樹是關(guān)鍵。

      2.1 粗糙集約簡算法模型

      定義1:已知論域U,對于每一個(gè)屬性子集P?(C∪D),P≠?,定義不可分辨關(guān)系IND(P);則有:?x∈U,[x]IND(P)=[x]p=∩?R∈P[x]R。即論域U上的一個(gè)劃分為U/IND(P),IND(P)為論域U的等價(jià)關(guān)系,即有U/IND(P)={[x]IND(p)|?x∈U}。

      (1)

      (2)

      定義3:對于R∈C,對于決策條件D,如果

      posIND(C)(IND(D))=posIND(C-{R})(IND(D))

      (3)

      則R是條件屬性C上D的可約分關(guān)系,否則是不可約分關(guān)系。

      定義4:在論域U上,所有的條件屬性C上D的不可約分關(guān)系構(gòu)成的集合,稱為C的核心集,記為Core(C)。核心集為條件屬性的所有約簡集的交集,所以約簡集一定包含核心集,且對于每個(gè)病例樣本集核心集是唯一的。

      定義5:對于病例集S={U,C,D,V,f},對于所有的屬性P,Q屬于C,有Q對P的依賴度為

      (4)

      若有屬性k=1,則P和Q等價(jià)。所以為了節(jié)省計(jì)算量,P和Q不應(yīng)該出現(xiàn)在同一個(gè)最小約簡集。

      文中采用基于屬性依賴度的可分辨矩陣約簡算法,對于經(jīng)典的屬性頻率的約簡算法而言,減小了很多不必要的計(jì)算,并且考慮了屬性間的依賴性,使屬性約簡集更加完備[14]。

      對于病例集S,構(gòu)建其二進(jìn)制可分辨矩陣:

      m((i,j),k)=

      (5)

      當(dāng)m((i,j),k)=1時(shí),表示屬性ck在(xi,xj),xi,xj∈U下可區(qū)分,否則不可區(qū)分。

      文中基于核心集Core(C),首先求最小約簡集R=Core(C),然后求核心集對應(yīng)的等價(jià)屬性,并在可分辨矩陣中去掉其等價(jià)屬性對應(yīng)的值,然后選擇|M(ck)|最大值的屬性ck加入最小約簡集。

      2.2 決策樹算法模型—C4.5算法

      由問題定義可知,在病例集S={U,C,D,V,f}中,假設(shè)它的一個(gè)劃分為{X1,X2,…,Xn},其中pi=P(xi),則有:

      (6)

      信息熵最早由香農(nóng)提出,表示物理學(xué)上信息的不確定度,而在數(shù)學(xué)上則表示為信息冗余度和概率之間的關(guān)系。信息熵增益表示病例集S按照某條件屬性C劃分時(shí)造成熵減少的期望,如下:

      Gain(S,C)=Entropy(S)-

      (7)

      其中,Vc表示某一條件屬性c的值域;Sv表示病例集S中屬性C劃分時(shí),屬性C取值為v的子集合的信息熵。

      ID3算法以信息熵增益作為條件屬性選擇的依據(jù),更傾向于選擇屬性取值多的屬性作為決策樹的節(jié)點(diǎn),而某些情況下這些節(jié)點(diǎn)并不是特別有價(jià)值。而C4.5算法用信息熵增益率代替了信息熵增益作為選擇的標(biāo)準(zhǔn),克服了ID3算法的不足。信息熵增益率計(jì)算方法如下:

      (8)

      其中,SplitInformation(S,C)表示按照條件屬性C劃分病例集的廣度和均勻性,稱為分裂因子,其公式為:

      (9)

      決策樹算法是基于屬性頻率的,所以ID3算法和基于粗糙集決策樹無法處理好連續(xù)的實(shí)數(shù)型參數(shù),因此要對連續(xù)實(shí)數(shù)型屬性進(jìn)行離散化。假設(shè)條件屬性C1是連續(xù)實(shí)數(shù)型的,且樣本總數(shù)為n,則設(shè)它的取值序列為VC1={v1,v2,…,vn}。C4.5算法將對它做如下處理:

      步驟1:將VC1={v1,v2,…,vn}進(jìn)行排序。

      步驟2:對已經(jīng)排序好的取值序列,以相鄰兩個(gè)元素的和作為斷點(diǎn),如下:

      v=(vi+vi+1)/2(1≤i≤n)

      (10)

      步驟3:總共取了n-1個(gè)斷點(diǎn),對決策系統(tǒng)而言,單個(gè)斷點(diǎn)將病例集分成條件屬性C1≤v和C1>v兩部分,對每個(gè)斷點(diǎn)計(jì)算GainRatio(S,v)的值,選GainRatio(S,v)最大的那個(gè)作為區(qū)分屬性C1的分割閾值,從而將屬性C1離散化。

      為了避免由于訓(xùn)練集S過多,加大樹的深度,樹過飽和,而導(dǎo)致樹的準(zhǔn)確率下降,采用悲觀剪枝的方法對其進(jìn)行剪枝。

      3 算法設(shè)計(jì)

      3.1 算法描述

      基于可分辨矩陣的粗糙集屬性約簡的C4.5智能診斷算法包括兩部分:基于屬性依賴改進(jìn)的可分辨矩陣屬性約簡算法,給定病例集S,對S進(jìn)行屬性約簡,得到最小屬性約簡集;然后將S進(jìn)行簡化,即只留下最小約簡集的屬性和決策屬性,得到簡化后的病例集S,然后用C4.5算法構(gòu)建決策樹,提取關(guān)于S的規(guī)則。

      算法1:基于屬性依賴改進(jìn)的可分辨矩陣的屬性約簡算法。

      輸入:U,原始病例樣本集,待屬性約簡;

      輸出:U,屬性約簡后的樣本實(shí)例集。

      步驟1:求基于論域U,條件屬性C的正域。通過式[3]找出所有不可約分關(guān)系,并求不可約分關(guān)系的交集即為核心集Core(C)。設(shè)最小約簡集R=Core(C);

      步驟2:求Core(C)的等價(jià)關(guān)系,并從條件屬性和樣本集U中去掉相關(guān)的值;

      步驟3:構(gòu)建二進(jìn)制可分辨矩陣,選擇|M(ck)|最大值的條件ck加入最小約簡集;

      步驟4:如果R滿足知識(shí)完備性,則得到最小約簡集,去掉不是約簡集中數(shù)據(jù)的樣本實(shí)例集U,不然返回步驟3。

      算法2:基于C4.5的決策樹構(gòu)造算法。

      輸入:U,屬性約簡后待訓(xùn)練的病例樣本實(shí)例集;

      輸出:Tree,構(gòu)建好的基于C4.5算法的決策樹C4.5_DTree(U)。

      步驟1:計(jì)算病例集的每個(gè)條件屬性的取值范圍VC;

      步驟2:如果當(dāng)前的樣本集U對于決策屬性的取值全部相同,則將葉子節(jié)點(diǎn)賦值為該決策屬性的取值,或者樣本集的條件屬性集為空,則葉子取值為決策屬性取值比較多的值,并返回,不然轉(zhuǎn)入步驟3;

      步驟3:計(jì)算每個(gè)條件屬性Ci的信息熵增益,首先判斷是否是連續(xù)性取值,如果是,按照2.2節(jié)中的算法求其基于決策屬性Dj的信息增益率,如果條件屬性為離散值,直接求該屬性對于決策屬性Dj的信息熵增益率;

      步驟4:取信息熵增益率最大的條件屬性Cmax作為決策樹的節(jié)點(diǎn),并從條件屬性集中刪除屬性Cmax;

      步驟5:根據(jù)條件屬性Cmax的取值對樣本集U進(jìn)行劃分,并返回步驟2;

      步驟6:根據(jù)樣本集對決策樹進(jìn)行悲觀剪枝。

      3.2 算法改進(jìn)

      決策樹建立在已知病例集上,一課決策樹的預(yù)測和分析可能會(huì)不太準(zhǔn)確,為了提高準(zhǔn)確率,文中構(gòu)建了決策樹森林,即將屬性約簡之后的病例集隨機(jī)劃分成多個(gè)病例集,然后每個(gè)病例集生成多棵決策樹,多棵決策樹構(gòu)成森林。由于構(gòu)建每棵決策樹的病例集是獨(dú)立的,所以決策樹之間沒有關(guān)聯(lián),當(dāng)有一條新的病例數(shù)據(jù)產(chǎn)生時(shí),讓森林里的每一棵決策樹分別進(jìn)行判斷,以概率最大的結(jié)果作為決策結(jié)果,可以提高準(zhǔn)確率。

      4 性能評價(jià)與系統(tǒng)仿真

      為驗(yàn)證文中算法對醫(yī)療診斷推理的正確性和有效性,取某醫(yī)療系統(tǒng)關(guān)于肺癌診斷的一些電子病例集,對基于屬性依賴的可分辨矩陣屬性約簡算法與可分辨矩陣屬性約簡算法進(jìn)行性能比較,將單純的C4.5算法、屬性約簡與單棵C4.5決策樹、屬性約簡和C4.5決策樹隨機(jī)森林進(jìn)行性能比較。

      4.1 仿真數(shù)據(jù)與仿真指標(biāo)

      采用某醫(yī)療系統(tǒng)關(guān)于肺癌手術(shù)后是否康復(fù)或者壽命只為1年的醫(yī)療數(shù)據(jù)進(jìn)行分析,該數(shù)據(jù)總共有870條記錄,有16個(gè)條件屬性,1個(gè)決策屬性,如表1所示。

      表1 屬性表

      以編寫的C++程序作為測試工具,主要從分類的正確性和時(shí)間消耗這兩個(gè)方面對肺癌數(shù)據(jù)的分析進(jìn)行評價(jià)。

      4.2 仿真結(jié)果

      在仿真中,為驗(yàn)證文中提出算法的時(shí)間性能,將其與可分辨矩陣屬性約簡算法進(jìn)行性能比較,如表2所示。

      表2 屬性約簡算法的實(shí)驗(yàn)結(jié)果比較

      這個(gè)數(shù)據(jù)集的核屬性有5個(gè)。從表2可知,兩種算法在肺癌的診斷數(shù)據(jù)上得到的最佳簡約集相同,但是基于屬性依賴的可分辨矩陣屬性約簡算法比可分辨矩陣屬性約簡算法的時(shí)間消耗小,前者大約是后者的0.6倍左右。

      表3列舉了約簡后的部分?jǐn)?shù)據(jù)集。

      表3 屬性約簡之后的部分?jǐn)?shù)據(jù)集

      為驗(yàn)證屬性約簡之后用C4.5算法以及C4.5加隨機(jī)森林的準(zhǔn)確性,進(jìn)行了規(guī)則提取的仿真。從870條記錄中隨機(jī)抽取120條作為檢驗(yàn)正確性的測試集,然后用剩下的750條做訓(xùn)練集。對于單純的C4.5算法,未經(jīng)過屬性約簡,直接將原始的病例集作為訓(xùn)練集,構(gòu)建決策樹,構(gòu)建好的決策樹的節(jié)點(diǎn)有236個(gè),規(guī)則有91條,準(zhǔn)確率為80.8%,比較低,耗時(shí)為2.326 s。

      屬性約簡后的訓(xùn)練集,用C4.5算法構(gòu)建單棵決策樹,得到146個(gè)節(jié)點(diǎn),78條規(guī)則,正確率為91.7%,有比較大的提升,耗時(shí)減少為1.843 s。

      屬性約簡和單棵C4.5決策樹直接將這750條測試數(shù)據(jù)當(dāng)作訓(xùn)練集即可,而對于屬性約簡和C4.5決策樹隨機(jī)森林,該算法要先進(jìn)行屬性約簡,然后將約簡后的750條數(shù)據(jù)隨機(jī)抽樣出300條記錄,抽樣成5份訓(xùn)練集,然后測試集進(jìn)行測試時(shí)走每棵決策樹的結(jié)果,將以占比大的推理結(jié)果作為結(jié)果,時(shí)間消耗比單棵決策樹有所提高,為2.048 s,但正確率提升為94.2%。

      表4 決策樹算法的實(shí)驗(yàn)結(jié)果比較

      實(shí)驗(yàn)結(jié)果表明,屬性約簡之后再用C4.5算法,減少了時(shí)間消耗,提高了肺癌診斷的正確性,而且耗時(shí)短。說明去掉那些不必要的因素可以很好地提高推理的正確性,而且也防止了決策樹因訓(xùn)練集太多,導(dǎo)致過飽和,而使正確性下降。從表4可以看出,加入隨機(jī)森林之后,醫(yī)療診斷的準(zhǔn)確度有所提升,這很好地避免了由于訓(xùn)練集過多而使決策樹節(jié)點(diǎn)過多,從而導(dǎo)致不準(zhǔn)確的情況。該算法使肺癌診斷的準(zhǔn)確性上升了一個(gè)臺(tái)階。

      5 結(jié)束語

      對肺癌診斷數(shù)據(jù)進(jìn)行研究與分析,著重于醫(yī)療數(shù)據(jù)屬性冗余度大的問題,提出了一種基于屬性依賴的可分辨矩陣的屬性約簡算法,找出最佳約簡集,減少了很多不必要的屬性。仿真結(jié)果表明,與基于可分辨矩陣的屬性約簡算法比較,在保證信息量的前提下,減少了算法時(shí)間開銷。對快速提出準(zhǔn)確規(guī)則問題,文中將屬性約簡后的訓(xùn)練集用C4.5算法進(jìn)行規(guī)則提出,相比直接進(jìn)行C4.5算法,準(zhǔn)確率提高很多,時(shí)間消耗也降低了。為了提高分類的準(zhǔn)確性,提出了基礎(chǔ)C4.5算法的隨機(jī)森林,實(shí)驗(yàn)結(jié)果表明,該算法提高了肺癌診斷結(jié)果的準(zhǔn)確性。該方法不只可以用在肺癌數(shù)據(jù)的分類推理中,也可以用在其他病醫(yī)療數(shù)據(jù)中;但是文中本質(zhì)上是根據(jù)醫(yī)療記錄對肺癌數(shù)據(jù)進(jìn)行的分類訓(xùn)練,對其他未知的情況無法給出明確的解答,這個(gè)問題還要在后期研究工作繼續(xù)探索。

      [1] RUEDA A,GONZLEZ F A,ROMERO E.Extracting salient brain patterns for imaging-based classification of neurodegenerative diseases[J].IEEE Transactions on Medical Imaging,2014,33(6):1262-1274.

      [2] INUIGUCHI M.Attribute reduction in variable precision rough set model[J].International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems,2011,14(4):461-479.

      [3] 王 靖,王興偉,趙 悅.基于變精度粗糙集決策樹垃圾郵件過濾[J].系統(tǒng)仿真學(xué)報(bào),2016,28(3):705-710.

      [4] SZELAG M,GRECO S,SOWISKI R.Variable consistency dominance-based rough set approach to preference learning in multicriteria ranking[J].Information Sciences,2014,277(2):525-552.

      [5] 鄂 旭,任駿原,畢嘉娜,等.基于粗糙變精度的食品安全決策樹研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,24(1):242-245.

      [6] 徐興梅,曹麗英.基于粗糙集和BP神經(jīng)網(wǎng)絡(luò)的糧食產(chǎn)量預(yù)測研究[J].東北農(nóng)業(yè)大學(xué)學(xué)報(bào),2014,45(10):95-100.

      [7] 賈曉芬,趙佰亭,周孟然,等.基于粗糙集約簡的圖像插值方法[J].計(jì)算機(jī)應(yīng)用研究,2015,32(2):623-626.

      [8] 高舉紅,趙天一.基于粗糙集理論的危險(xiǎn)品運(yùn)輸風(fēng)險(xiǎn)分析[J].安全與環(huán)境學(xué)報(bào),2015,15(1):40-43.

      [9] 蔣亞坤,李文云,趙 瑩,等.粗糙集與證據(jù)理論結(jié)合的電網(wǎng)運(yùn)行優(yōu)質(zhì)性綜合評價(jià)[J].電力系統(tǒng)保護(hù)與控制,2015,43(13):1-7.

      [10] SKOWRON A,RAUSZER C.The discernibility matrices and functions in information system[J].Theory and Decision Library,2012,11:331-362.

      [11] 常梨云,王國胤,吳 渝.一種基于Rough Set理論的屬性約簡及規(guī)則提取方法[J].軟件學(xué)報(bào),1999,10(11):1206-1211.

      [12] 常志玲,周慶敏.基于變精度粗糙集的決策樹優(yōu)化算法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2006,27(17):3175-3177.

      [13] ZHAO Guoying,HUANG Xiaohua,MATTI T,et al.Facial expression recognition from near-infrared videos[J].Image and Vision Computing,2011,29(9):607-619.

      [14] 王 玨,王 任,苗奪謙,等.基于Rough Set理論的“數(shù)據(jù)濃縮”[J].計(jì)算機(jī)學(xué)報(bào),1998,21(5):393-400.

      ApplicationofDecisionTreeBasedonRoughSetinMedicalDiagnosis

      HUANG Jin-jing,CHEN Dai,LI Meng-tian

      (School of Computer Science and Technology,China University of Mining and Technology,Xuzhou 221116,China)

      Online medical diagnosis is becoming more and more popular,so more and more data are in electronic records.How to reduce the redundancy of medical data,extract useful medical value rapidly from a large number of medical data,and improve the speed and accuracy of medical diagnosis has become a hot issue.In view of it,some data of diagnosis of lung cancer in medical system are researched,and the C4.5 algorithm of attribute reduction based on attribute-dependent improved discernibility matrix is established and improved by stochastic forest.Attribute reduction algorithm reduces the redundancy of medical data,the decision tree algorithm extracts some rules of lung cancer diagnosis,and the stochastic forest raises the accuracy of diagnosis.In this paper,simulation and application are carried out under the scenario of lung cancer diagnosis.The simple C4.5 algorithm is made a comparison with the attribute reduction and the single C4.5 decision tree,and attribute reduction and random forests of C4.5 decision tree.The experiment shows that the proposed method accelerates the computing and improves the accuracy of medical diagnosis.

      rough set;attribute reduction;discernibility matrix;C4.5 algorithm;decision tree

      TP39

      A

      1673-629X(2017)12-0148-05

      10.3969/j.issn.1673-629X.2017.12.032

      2017-01-21

      2017-05-25 < class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間

      時(shí)間:2017-09-27

      國家級(jí)大學(xué)生創(chuàng)新項(xiàng)目(201510290002)

      黃錦靜(1994-),女,研究方向?yàn)橛?jì)算機(jī)科學(xué)與技術(shù);陳 岱,副教授,研究方向?yàn)橛?jì)算機(jī)應(yīng)用。

      http://kns.cnki.net/kcms/detail/61.1450.TP.20170927.1000.074.html

      猜你喜歡
      約簡粗糙集決策樹
      基于Pawlak粗糙集模型的集合運(yùn)算關(guān)系
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      基于二進(jìn)制鏈表的粗糙集屬性約簡
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      實(shí)值多變量維數(shù)約簡:綜述
      基于模糊貼近度的屬性約簡
      多?;植诩再|(zhì)的幾個(gè)充分條件
      基于決策樹的出租車乘客出行目的識(shí)別
      雙論域粗糙集在故障診斷中的應(yīng)用
      兩個(gè)域上的覆蓋變精度粗糙集模型
      抚顺县| 新营市| 侯马市| 突泉县| 杨浦区| 荔波县| 九龙县| 孝义市| 互助| 札达县| 霍山县| 博乐市| 开原市| 巴东县| 玉龙| 廉江市| 怀宁县| 德安县| 沙河市| 平陆县| 黄梅县| 剑阁县| 同仁县| 汾阳市| 宝鸡市| 武陟县| 长宁县| 和顺县| 吉林市| 岳西县| 新兴县| 陕西省| 祥云县| 布尔津县| 宝丰县| 永川市| 阿瓦提县| 夏邑县| 敦煌市| 丹寨县| 益阳市|