摘 要:本文將改進(jìn)的Apriori關(guān)聯(lián)規(guī)則算法應(yīng)用于肝癌預(yù)后影響的預(yù)測中,通過20個具有代表性的樣本數(shù)據(jù),提取、化簡得到一組規(guī)模合適的關(guān)聯(lián)規(guī)則集,結(jié)合CBR技術(shù)對新案例診斷。最后,將關(guān)聯(lián)規(guī)則集中的各個規(guī)則還原實(shí)際含義,從而對醫(yī)生的診斷提供輔助方案。
關(guān) 鍵 詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;CBR;肝癌
肝癌作為一種惡性腫瘤危害人類健康,治療方案的選擇極大影響肝癌患者的預(yù)后。目前對預(yù)后分析的方法有Logistic回歸、Kaplan-Meier法、決策樹法等,本文提出改進(jìn)Apriori算法,不僅考慮預(yù)后影響,而且考慮各因素之間的影響,以期出現(xiàn)某一癥狀可預(yù)測下一癥狀,從而盡早預(yù)防。
數(shù)據(jù)預(yù)處理
對20組具有代表性的數(shù)據(jù)進(jìn)行離散化處理,每一位都用布爾值去表示,“1”代表具有該種屬性,“0”代表不具有該種屬性。字母A—T作為區(qū)分20個樣本號。數(shù)字1—30就是原有X1—X10細(xì)分后的原子屬性,處理后結(jié)果如表1所示。
新案例的診斷
直接運(yùn)用案例推理CBR[1]診斷新案例會使案例庫冗余。因而,將其改進(jìn)為:先遍歷案例庫,從中選擇最為相似的數(shù)據(jù)作為判斷依據(jù),再判斷相似度,若<<(是根據(jù)專家經(jīng)驗(yàn)精度),則無需將新案例放入,否則加入到案例庫。其中 可用歐式距離[1]量化,相似度越小表示案例越相似。
總結(jié)
與決策樹方法[2]相比,改進(jìn)Apriori方法[3]將Decision也視為同等的屬性,不僅可以研究X1—X10屬性對于Decision的影響,而且可以研究各個病癥之間聯(lián)系,達(dá)到某一前件病癥出現(xiàn)時可以預(yù)防后件病癥發(fā)生的效果,從而輔助醫(yī)生為病人提供更加及時、有效的治療,為病人免去了繁瑣檢查的痛苦,也減輕了病人的經(jīng)濟(jì)負(fù)擔(dān)。在實(shí)際應(yīng)用中,如果能夠?qū)<覜Q策與計算機(jī)輔助工具相結(jié)合,并將概率理論結(jié)合到本文模型中,相信會大大提高模型的實(shí)用型和準(zhǔn)確度。
參考文獻(xiàn)
[1] 施京華.基于數(shù)據(jù)挖掘的癌癥診療決策優(yōu)化研究[D].博士論文.上海:上海交通大學(xué),2011.6.
[2] 陳燕,張振中.數(shù)據(jù)挖掘決策樹在肝癌病人預(yù)后中的研究與應(yīng)用[J].科學(xué)信息,2007(10):20-21.
[3] 陳燕.數(shù)據(jù)挖掘技術(shù)與應(yīng)用[M].北京:清華大學(xué)出版社,2011.5.