郭叔瑾,吳辰文
(蘭州交通大學(xué) 電子與信息工程學(xué)院, 甘肅 蘭州 730070)
乳腺癌是第二大常見的人類腫瘤,約占女性所有癌癥的四分之一[1-5]。在大多數(shù)國家,乳腺癌被認(rèn)為是女性死亡的主要原因,因此應(yīng)盡力減少這種慢性疾病[2-3]。研究人員使用數(shù)據(jù)挖掘技術(shù)來加強人們對該疾病的認(rèn)識,數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)的主要階段,其中包括一系列針對不同目標(biāo)的方法,如分類、聚類,關(guān)聯(lián)規(guī)則和AC[6-8]。本文將重點介紹AC技術(shù),并展示如何使用它來加強乳腺癌領(lǐng)域的決策過程。
分類技術(shù)旨在預(yù)測任何給定實例的類標(biāo)簽,而關(guān)聯(lián)技術(shù)旨在發(fā)現(xiàn)大型數(shù)據(jù)庫中項目之間的關(guān)系。近年來,為了提高分類準(zhǔn)確度,為乳腺癌等許多關(guān)鍵領(lǐng)域提供服務(wù),研究人員在分類過程中采用了關(guān)聯(lián)規(guī)則技術(shù),探索了一種稱為關(guān)聯(lián)分類(AC)的新技術(shù)[6,9-10]。AC技術(shù)在分類過程中采用關(guān)聯(lián)規(guī)則來增強隱藏模式,提高分類準(zhǔn)確性,在許多應(yīng)用領(lǐng)域的決策過程中起著主要作用。AC技術(shù)是第二代關(guān)聯(lián)規(guī)則技術(shù),已經(jīng)實現(xiàn)了查找項目和類之間的相關(guān)性。例如規(guī)則R:Item1,Item2→Class1,被解釋為:如果項目值Item1和Item2針對特定對象O在任何情況下一起出現(xiàn),則O被歸類為Class1[6,9-10]。
大多數(shù)AC算法使用支持度和置信度產(chǎn)生關(guān)聯(lián)規(guī)則,而不關(guān)注具體應(yīng)用領(lǐng)域。此外,不使用任何技術(shù)來區(qū)分給定數(shù)據(jù)集中屬性的重要性。為了避免當(dāng)前AC算法的不足,本文提出了一種基于統(tǒng)計調(diào)和平均值的特征加權(quán)關(guān)聯(lián)分類算法(Feature weighted association classification algorithm based on statistical harmonic mean, FWAC)。FWAC算法的基本思想是用加權(quán)模型代替?zhèn)鹘y(tǒng)關(guān)聯(lián)規(guī)則挖掘模型的支持度置信度結(jié)構(gòu),確定對乳腺癌疾病有重大影響的屬性,并由相關(guān)專家賦予其最高優(yōu)先級。本文還使用統(tǒng)計調(diào)和平均值(Harmonic mean, HM)在剪枝和規(guī)則生成階段對關(guān)聯(lián)規(guī)則進行排序,從規(guī)則剪枝階段產(chǎn)生的強規(guī)則中排除了具有弱屬性的規(guī)則。實驗結(jié)果表明,數(shù)據(jù)集中屬性的權(quán)重對分類規(guī)則有很大的影響。通過文中的實例展示了如何將FWAC算法應(yīng)用于實際領(lǐng)域。為了測試FWAC算法的性能,將FWAC算法與一組著名的AC算法進行了比較,在大多數(shù)情況下,FWAC算法在精度方面優(yōu)于其他AC算法。此外,在運用FWAC算法之前,領(lǐng)域?qū)<倚杞o每個屬性分配權(quán)重。要想對算法進行推廣,還必須對其他領(lǐng)域進行研究,并將其與AC算法進行比較。最后,使用Python3.0工具來探索并將結(jié)果可視化。
AC技術(shù)是關(guān)聯(lián)規(guī)則和分類技術(shù)的組合。關(guān)聯(lián)規(guī)則技術(shù)的目的是發(fā)現(xiàn)屬性之間的關(guān)聯(lián),而分類技術(shù)負(fù)責(zé)預(yù)測類別標(biāo)簽。文獻[11]對AC問題進行了描述。我們使用表1所示的數(shù)據(jù)集T來解釋AC的概念和定義。
表1 5個訓(xùn)練對象的數(shù)據(jù)集實例TTab.1 Dataset sample T with five training objects
在AC問題中,關(guān)聯(lián)規(guī)則被用于分類過程。訓(xùn)練數(shù)據(jù)集T具有n個不同的屬性(A1,A2,…,An),C是類別列表。屬性可以是分類的也可以是連續(xù)的。分類屬性的所有可能值被映射到一組正整數(shù),而連續(xù)屬性使用某種離散化方法對其進行離散化。T中的行或者訓(xùn)練對象可被描述為屬性名稱Ai,值vi和類別Ci的組合,并且該項目可被描述為屬性名稱Ai和值vi的組合。如表1所示(A1,v1)是一個項目,項目集是訓(xùn)練對象中包含一組項目,如(A1,v1)(A2,v3)是一個項目集。項集規(guī)則r的形式是
任何符合最小支持度閾值的項集規(guī)則r都被認(rèn)為是一個頻繁項集規(guī)則,而實際的類關(guān)聯(lián)規(guī)則則表示為(A1,v1)∧(A2,v2)∧…∧(Am,vm)→Cj,規(guī)則的前件是一個項目集,后件是一個類。
Liu等人[9]研發(fā)了一種基于關(guān)聯(lián)分類技術(shù)的算法,稱之為基于關(guān)聯(lián)規(guī)則的分類(Classification based on association rules, CBA)。CBA算法有3個階段:第一階段是規(guī)則生成階段,使用Apriori算法發(fā)現(xiàn)類關(guān)聯(lián)規(guī)則(Class association rules, CARs)的頻繁模式;第二階段是剪枝階段,負(fù)責(zé)從生成的規(guī)則中選擇最佳規(guī)則;第三階段是預(yù)測階段,負(fù)責(zé)預(yù)測未知實例。該算法應(yīng)用于UCI機器學(xué)習(xí)庫中的許多數(shù)據(jù)集上。
Yusof等人[12]提出了一種基于關(guān)聯(lián)規(guī)則的修改的多類分類算法(Modified multi-class classification based on association rule, MMCAR)。MMCAR算法采用新的規(guī)則產(chǎn)生函數(shù),只使用相關(guān)規(guī)則進行預(yù)測。該算法使用基于Tid-list的方法來計算項目值的支持度和置信度。MMCAR與RIPPER,C4.5和MCAR就分類準(zhǔn)確度和生成的規(guī)則數(shù)進行比較。實驗結(jié)果表明,MMCAR的分類準(zhǔn)確度高于RIPPER和C4.5,MCAR算法的平均準(zhǔn)確度略高于MMCAR算法,但是MMCAR產(chǎn)生的規(guī)則數(shù)少于MCAR產(chǎn)生的規(guī)則數(shù)。
Wu等人[13]基于濃縮的概念提出了一種用于分類的濃縮關(guān)聯(lián)規(guī)則(Condensed association rules for classification, CARC)。CARC算法使用改進的Apriori算法來生成關(guān)聯(lián)規(guī)則,并開發(fā)了新的規(guī)則推理策略。利用濃縮度量和規(guī)則推理策略可以生成更多有用的關(guān)聯(lián)規(guī)則,并改進了關(guān)聯(lián)分類算法的效率。實驗結(jié)果表明,CARC減少了設(shè)置過高或過低最小支持度所帶來的問題,在分類準(zhǔn)確度方面具有較好的性能。
Hadi等人[14]提出了一種新的快速關(guān)聯(lián)分類算法(Fast association classification algorithm, FACA)。規(guī)則生成過程中使用了Diffset方法來提高構(gòu)建模型的速度。此外,根據(jù)前件數(shù)最少、置信度、支持度和首次生成的規(guī)則等作為評價標(biāo)準(zhǔn),對挖掘出的規(guī)則進行排序。FACA還提出了預(yù)測階段的多規(guī)則方法來提高分類過程的準(zhǔn)確性。具體來說,該算法將匹配的規(guī)則劃分為基于其標(biāo)簽的類,然后選擇規(guī)則數(shù)最多的類標(biāo)簽。為了評估算法的性能,作者將他們的工作與文獻[15]中描述的CBA,CMAR,MCAR和增強型關(guān)聯(lián)規(guī)(Enhanced class association rule, ECAR)進行了比較。
增強型CBA(Enhanced CBA, ECBA)算法是基于Apriori優(yōu)化和Alwidian等人[16]提出的統(tǒng)計排序方法。將該算法與CBA,CMAR和MCAR算法進行比較,評估其準(zhǔn)確性。實驗結(jié)果表明,與其他算法相比,ECBA在準(zhǔn)確度方面表現(xiàn)得更好。
表2比較了FWAC算法和以上5種AC算法。他們的主要區(qū)別是FWAC算法使用了主題專家分配的屬性權(quán)重和統(tǒng)計調(diào)和平均值來確定生成規(guī)則的優(yōu)先級。其他AC技術(shù)可能會由于用戶給出的有問題的估計方法而提早刪除一些好的關(guān)聯(lián)規(guī)則,但FWAC算法將好的規(guī)則保持到最后,從而提高了準(zhǔn)確性。
許多研究人員使用關(guān)聯(lián)規(guī)則挖掘乳腺癌數(shù)據(jù)集并預(yù)測。 Shrivastava等人[3]介紹了用于乳腺癌數(shù)據(jù)集的數(shù)據(jù)挖掘技術(shù),在包含699個樣本和兩個分類的乳腺癌數(shù)據(jù)集上使用了一組分類器。實驗結(jié)果表明,該技術(shù)在未知實例的預(yù)測過程中有良好的性能,也展示了在這個研究領(lǐng)域中使用數(shù)據(jù)挖掘技術(shù)的潛力。Majali等[5]應(yīng)用關(guān)聯(lián)分類技術(shù)對癌癥的診斷和預(yù)后進行了研究。采用FP-Growth算法生成關(guān)聯(lián)規(guī)則,發(fā)現(xiàn)良惡性患者的隱藏模式,提高分類準(zhǔn)確度。Bhagwat等人[17]研究了許多分類器來預(yù)測患者是否會面臨復(fù)發(fā)。Shrivastava等人[3]和Majali等人[5]開發(fā)的算法的缺點之一是都使用了由用戶估計的支持度和置信度閾值,因此排序過程總是受這些值的影響。此外,Bhagwat等人[17]的研究使用黑箱分類器,這些分類器不能產(chǎn)生用戶可以解釋和理解的規(guī)則。為了避免這些缺陷,本文提出了FWAC算法,并將其應(yīng)用于乳腺癌預(yù)測問題。
表2 6種算法的比較Tab.2 Comparison of six algorithm
在傳統(tǒng)的規(guī)則挖掘中,規(guī)則是否重要取決于數(shù)據(jù)庫中項目集的數(shù)量。傳統(tǒng)的規(guī)則挖掘考慮支持度和置信度,以找出頻繁項集,并假定所有項目都具有同等重要性。Wang等人[18]提出了加權(quán)關(guān)聯(lián)規(guī)則挖掘方法(Weighted association rule mining, WARM)。它通過為數(shù)據(jù)庫中的項目分配權(quán)重來推廣傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法。權(quán)重用來反映數(shù)據(jù)庫中項目的重要性。在該算法中,使用領(lǐng)域知識為數(shù)據(jù)集內(nèi)的項目分配權(quán)重,數(shù)據(jù)集經(jīng)過權(quán)重生成算法,將權(quán)重作為WARM算法的輸入,并使用加權(quán)支持度來生成有趣的規(guī)則列表。目的是引導(dǎo)挖掘過程中具有重要權(quán)重的項目進行有意義的關(guān)聯(lián),并使用加權(quán)支持度來生成有趣的規(guī)則列表[19]。大多數(shù)數(shù)據(jù)項沒有預(yù)先分配的權(quán)重[20],權(quán)重由該領(lǐng)域的專家調(diào)整,由于專家可以分配不同的權(quán)重,從而產(chǎn)生不同的規(guī)則。在某些情況下,使用領(lǐng)域知識來確定所有項目的準(zhǔn)確權(quán)重可能是不切實際的,特別是當(dāng)數(shù)據(jù)集具有大量項集時。在這種情況下,可以使用半自動化或自動化方法[21-22]。基于這些原因,本文提出了一種新的加權(quán)算法FWAC。
FWAC算法旨在基于高效的規(guī)則加權(quán)技術(shù)來提高關(guān)聯(lián)分類器的準(zhǔn)確性。它被用于解決在生成類關(guān)聯(lián)規(guī)則時需要估計支持度和置信度的問題。算法1顯示了FWAC算法的工作流程,涉及3個階段:規(guī)則產(chǎn)生;規(guī)則剪枝;分類預(yù)測。
算法1FWAC算法
1)擁有n個訓(xùn)練對象的數(shù)據(jù)集T
2)FWAC(T,n) {將數(shù)據(jù)集T分為訓(xùn)練集和測試集
3)S=?
4)S=產(chǎn)生的規(guī)則(訓(xùn)練集,最小支持度,n)
5)規(guī)則剪枝(最小置信度,S)→
(強規(guī)則,備用規(guī)則)
6)預(yù)測(強規(guī)則,備用規(guī)則,測試集)}
算法2規(guī)則產(chǎn)生
1)規(guī)則產(chǎn)生(訓(xùn)練集,最小支持度,n)
2){S′=? ,k=1
3) while(Sk-1!=?){
4)Sk=生成的所有候選k-項集
5)forSk中的每一個項集規(guī)則r
7)Weight(r)=
8)Weighted support(r)=Weight(r)×
Support(r)
9)if Weighted support(r)>=最小支持度
10)S′=S′+r
11)End if
12)End for
13)k=k+1}
14)ReturnS′}
第1步:規(guī)則產(chǎn)生。與其他AC算法不同,FWAC算法在生成關(guān)聯(lián)規(guī)則之前,需要領(lǐng)域?qū)<覟閿?shù)據(jù)集中的屬性分配權(quán)重。屬性權(quán)重可以根據(jù)3種不同的度量(高、低、中)來分配從1到10的值。1到3代表低,4到7代表中,8到10代表高。我們將展示如何使用這些方法來處理乳腺癌復(fù)發(fā)數(shù)據(jù)和診斷數(shù)據(jù)。算法2展示了FWAC算法如何從加權(quán)數(shù)據(jù)集中生成規(guī)則?;谒惴?,規(guī)則生成算法的主要輸入是訓(xùn)練集、最小支持度和n,其中n是訓(xùn)練數(shù)據(jù)的大小。
首先,FWAC從訓(xùn)練數(shù)據(jù)中生成所有候選單項集。然后,計算每個項集的支持度和加權(quán)支持度。算法為重要的特征分配高優(yōu)先級,以使它們出現(xiàn)在較好的規(guī)則中。最后,FWAC找到頻繁的單項目集規(guī)則。那些加權(quán)支持度大于或等于給定的最小支持度的規(guī)則,被插入到S′中,而其他規(guī)則將被消除。這一步將重復(fù)從Sk中找到候選的和頻繁的項集規(guī)則,其中k是規(guī)則中的項集數(shù)。
第2步:規(guī)則剪枝。首先,計算每個頻繁規(guī)則的置信度。其次,消除每個置信度值小于最小置信度的規(guī)則,其余的成功規(guī)則將被添加到類關(guān)聯(lián)規(guī)則中。然后,找出每個頻繁規(guī)則的HM。使用HM度量克服了其他AC算法通常使用估計的最小支持度和最小置信度的問題。其他AC算法在最終規(guī)則集中不會生成支持度或置信度低于估計的最小支持度和最小置信度的規(guī)則。例如,最小置信度是0.6,最小支持度是0.2,則不會產(chǎn)生置信度為0.59,支持度為0.6的規(guī)則。因此,FWAC算法使用在支持度和置信度之間產(chǎn)生的HM值。為了得到強規(guī)則,所有生成的規(guī)則都基于它們的HM度量值進行排序。對于具有相同HM值的規(guī)則,將根據(jù)他們的置信度、支持度和第一次出現(xiàn)的順序進行排序,這種情況下的首次出現(xiàn)是指首先生成的規(guī)則。這一階段的最后一步是應(yīng)用M1方法進行數(shù)據(jù)覆蓋,將規(guī)則分成兩組:強規(guī)則和備用規(guī)則[9]。
第3步:分類預(yù)測。對于任何給定的實例i,FWAC檢查強規(guī)則集合中可以分類i的規(guī)則。接下來,將規(guī)則分成基于類標(biāo)簽的組。然后,計算每個類的平均HM值,并將實例歸類為HM最大的那一類。如果FWAC在強規(guī)則集中找不到匹配規(guī)則,則繼續(xù)搜索備用規(guī)則集。否則,給定實例將被預(yù)測為默認(rèn)類,其中默認(rèn)類是具有最大頻率的類。如果不止一個類具有相同的頻率,則將選擇具有首次出現(xiàn)的類。FWAC忽略任何測試實例的缺失值。
以下示例說明了FWAC算法的工作原理。假設(shè)我們有如表3所示的買房數(shù)據(jù)集T,最小支持度為5/6,最小置信度為0.5。
表3 數(shù)據(jù)集TTab.3 Dataset T
我們想要預(yù)測實例[junior, middle, N]的類別值。對于這個例子,表3中分配給Buy類的是"no"標(biāo)簽?,F(xiàn)在,我們想知道FWAC算法預(yù)測的結(jié)果是否和表3中的結(jié)果一致。在房地產(chǎn)行業(yè),分析師可能希望根據(jù)相關(guān)數(shù)據(jù)集中屬性的重要性來挖掘規(guī)則,因此,他們對包含"Income"屬性的規(guī)則比包含"Age"屬性的規(guī)則更感興趣,這兩者都與購買更多的房屋有關(guān)。在這個數(shù)據(jù)集中,"Income"屬性應(yīng)該得到比"Age"屬性更高的權(quán)重以反映其重要性。權(quán)重可以讓用戶方便地了解屬性的重要性,并獲得更有趣的規(guī)則?;诖?表4顯示了根據(jù)數(shù)據(jù)集T中屬性的重要性為各個屬性分配的權(quán)重。
表4 數(shù)據(jù)集T中各個屬性對應(yīng)的權(quán)重Tab.4 Weight of each attribute in dataset T
關(guān)于FWAC算法如何工作的分步說明如下:
第1步:通過計算每個規(guī)則的支持度和加權(quán)支持度生成所有候選單項集規(guī)則。規(guī)則r=(senior→yes),分配權(quán)重給屬性"Age"=2,根據(jù)算法2的第6,7,8行,有Support=1/3,Weighted support(senior→yes)=2/3。
第2步:找出頻繁單項集規(guī)則,其中頻繁單項集規(guī)則的加權(quán)支持度大于或等于給定的最小支持度。再根據(jù)支持度和加權(quán)支持度來找到候選2-項集規(guī)則。根據(jù)候選2-項集規(guī)則找到頻繁2-項集規(guī)則,依次類推,直到找不到頻繁k-項集規(guī)則,算法結(jié)束并停止生成規(guī)則。保持滿足CAR中最小置信度的所有規(guī)則,并消除其他規(guī)則。以下示例展示了如何計算特定規(guī)則r的置信度值。規(guī)則r=(senior→yes),supportcount(senior→yes)=2,actoccr(senior)=2,則根據(jù)置信度計算公式得到Confidence(senior→yes)=2/2=1。
第3步:基于HM值對CAR中的規(guī)則進行排序,如表5所示。如果多個規(guī)則具有相同的HM度量值,則將分別基于置信度、支持度和規(guī)則優(yōu)先次序?qū)σ?guī)則進行排序。以下示例顯示如何計算特定規(guī)則r的調(diào)和平均值HM。規(guī)則r=(low→no),Weighted support(r)=9×1/6=1.5,Confidence(r)=1,由于
表5 基于HM值的規(guī)則排序Tab.5 Rule sorting based on HM value
第4步:使用M1方法進行數(shù)據(jù)覆蓋,將規(guī)則分成兩組,強規(guī)則和備用規(guī)則,如表6和表7所示。
表6 強規(guī)則集合Tab.6 The set of strong rules
表7 備用規(guī)則集Tab.7 The set of spare rules
假設(shè)需要預(yù)測[junior, middle, N]實例的類別。該算法檢查可以匹配此實例的強規(guī)則集。最后,發(fā)現(xiàn)了以下兩條規(guī)則:middle,N→yes,N→no。然后根據(jù)目標(biāo)類"Buy"的類型將這兩個規(guī)則分為兩組,如下所示:Cluster(yes) has the rule: middle,N→yes和Cluster(no) has the rule: N→no。計算類Buy="yes"的HM值為0.71,而類Buy="no"的HM值為0.80。 因此,該實例的類值為"no"。 所以,FWAC算法計算出的值符合表3的實際值。
為了說明備用規(guī)則集的有用性,下面舉例來解釋:假設(shè)需要預(yù)測一個未知實例[?, high, Y]的類,其中"?"表示缺失值。首先,FWAC算法忽略缺失值,繼續(xù)檢查強規(guī)則的集合以找到一些匹配規(guī)則。由于沒有在強規(guī)則集中找到匹配規(guī)則,它試圖在備用規(guī)則集中找到一些匹配的規(guī)則。發(fā)現(xiàn)只有一個匹配規(guī)則:high, Y→yes。則該實例的類值為Buy="yes"。因此,預(yù)測值符合表3的實際值。
實驗平臺采用64位的Windows7操作系統(tǒng),處理器為Intel(R) Core(TM) i5,內(nèi)存為4GB。實驗數(shù)據(jù)來自UCI機器學(xué)習(xí)庫,FWAC是用python3.0實現(xiàn)。
為了測試FWAC算法,使用了來自UCI機器學(xué)習(xí)庫的兩個乳腺癌數(shù)據(jù)集:乳腺癌診斷數(shù)據(jù)集和乳腺癌復(fù)發(fā)數(shù)據(jù)集。乳腺癌診斷數(shù)據(jù)集包含10個屬性和699個實例,如表8所示。乳腺癌復(fù)發(fā)數(shù)據(jù)集包含10個屬性和286個實例,如表9所示。
表8 乳腺癌診斷數(shù)據(jù)集Tab.8 Breast cancer diagnosis dataset
表9 乳腺癌復(fù)發(fā)數(shù)據(jù)集Tab.9 Breast cancer recurrences dataset
為了明確乳腺癌數(shù)據(jù)集中屬性的重要性,并幫助我們?yōu)槊總€屬性分配準(zhǔn)確的權(quán)重,我們向甘肅省腫瘤醫(yī)院的主題專家尋求幫助。甘肅省腫瘤醫(yī)院是面向西北地區(qū)最大的醫(yī)學(xué)科研及腫瘤專業(yè)防治機構(gòu)。我們與專家討論了UCI數(shù)據(jù)集,并根據(jù)這些屬性在預(yù)測乳腺癌復(fù)發(fā)和診斷過程中的重要性,使用如前所述的低,中,高3種方法對屬性進行分類。結(jié)果如表10和表11所示。
借鑒前人的研究,最低支持度設(shè)定為10%至30%[6,13-14],且建議置信度固定為50%。表12為兩個乳腺癌數(shù)據(jù)集在FWAC算法以及5種AC算法上運行結(jié)果的準(zhǔn)確率。從表12可以看出,對于3次運行,FWAC算法在乳腺癌復(fù)發(fā)數(shù)據(jù)集上運行時的表現(xiàn)優(yōu)于其他5種AC算法,準(zhǔn)確率分別為69.78%,73.64%和70.94%。同時,對于乳腺癌診斷數(shù)據(jù)集,FWAC算法也優(yōu)于其他5種AC算法,準(zhǔn)確率分別為97.3%,97.6%和96.9%。此外,在對乳腺癌復(fù)發(fā)數(shù)據(jù)集進行實驗時,FACA和ECBA算法在第一次運行中排在第二位,準(zhǔn)確率為67.43%。 第二次運行中FACA算法排在第二位,準(zhǔn)確率分別為68.62%。在第三次運行中,CARC算法排在第二位,準(zhǔn)確率為66.48%。此外,在對乳腺癌診斷數(shù)據(jù)集進行實驗時,CARC算法在第一次運行中排在第二位,準(zhǔn)確率為96.8%。 在第二次運行中CBA算法排在第二位,準(zhǔn)確率為94.6%。 在第三次運行中,FACA算法排在第二位,準(zhǔn)確率為94.1%。FWAC在準(zhǔn)確性方面優(yōu)于其他AC算法,由于它對乳腺癌疾病具有最高影響的屬性賦予最高的優(yōu)先級,同時,消除了在規(guī)則修剪過程中產(chǎn)生的最高規(guī)則列表中的弱屬性。當(dāng)最小支持度為0.2,最小置信度為0.5時,F(xiàn)WAC算法在乳腺癌復(fù)發(fā)數(shù)據(jù)集和乳腺癌診斷數(shù)據(jù)集上生成的前5條規(guī)則如圖1和圖2所示。在圖1中,由FWAC算法產(chǎn)生的前5條規(guī)則包含對乳腺癌影響最大的屬性。這些規(guī)則在準(zhǔn)確的類別預(yù)測中起著重要作用,提高了分類的準(zhǔn)確性。圖1也顯示了與我們的預(yù)期相一致的地方,在生成的規(guī)則中排除弱屬性"Breast"和"Breast-quad"。與FWAC不同的是,其他AC算法生成的最高規(guī)則與乳腺癌復(fù)發(fā)數(shù)據(jù)集的"Breast"和"Breast-quad"等弱屬性相關(guān)聯(lián),這是降低其分類精度的原因??梢宰⒁獾?在圖1中,由FWAC生成的前兩個規(guī)則被其他AC算法所忽略,這主要是因為常用的AC算法使用估計的最小支持度和最小置信度值。此外,本文的分類器使用HM度量排序生成的規(guī)則,以加強剪枝過程。最后,FWAC算法沒有消除未通過數(shù)據(jù)庫覆蓋方法生成的規(guī)則。當(dāng)強規(guī)則不能預(yù)測新實例時,這些規(guī)則被存儲在用于分類過程的備用規(guī)則集中。
表10 乳腺癌復(fù)發(fā)屬性的權(quán)重Tab.10 Weights of breast cancer recurrence attributes
表11 乳腺癌診斷屬性的權(quán)重Tab.11 Weights of breast cancer diagnosis attributes
表12 兩個乳腺癌數(shù)據(jù)集在所有算法上運行的準(zhǔn)確率Tab.12 Accuracy of two breast cancer dataset running on all algorithms
圖1 FWAC算法在乳腺癌復(fù)發(fā)數(shù)據(jù)集上生成的前5條規(guī)則Fig.1 The first five rules generated by FWAC algorithm on breast cancer recurrence dataset
圖2 FWAC算法在乳腺癌診斷數(shù)據(jù)集上生成的前5條規(guī)則Fig.2 The first five rules generated by FWAC algorithm on breast cancer diagnosis dataset
本文研究了一種新的關(guān)聯(lián)分類算法FWAC。FWAC技術(shù)旨在提高基于有效規(guī)則加權(quán)技術(shù)的關(guān)聯(lián)分類器的準(zhǔn)確性。它解決了常用AC算法在生成類關(guān)聯(lián)規(guī)則時,使用估計的支持度和置信度值的缺點。FWAC算法基于加權(quán)方法選擇更有用的關(guān)聯(lián)規(guī)則,并使用統(tǒng)計度量來對規(guī)則進行修剪,所有這些特性都有助于提高FWAC算法在精度方面的性能。作為研究案例,已經(jīng)在乳腺癌數(shù)據(jù)集上測試了5種常見AC算法和FWAC算法。在所有的實驗中,FWAC都優(yōu)于其他AC算法。從實驗結(jié)果可以得出以下結(jié)論:
1) FWAC算法應(yīng)用屬性加權(quán)方案對重要屬性和不重要的屬性進行排序。由領(lǐng)域內(nèi)的主題專家來分配權(quán)重。實驗結(jié)果表明,加權(quán)方案可以有效提高AC算法的精度。
2) FWAC算法應(yīng)用了兩個分類器:一個是針對包含最重要屬性的強規(guī)則分類器,另一個是針對包含不重要屬性的備用規(guī)則分類器。這種方法限制了默認(rèn)類規(guī)則的使用,該規(guī)則通常具有不可接受的錯誤率。
3) FWAC算法使用統(tǒng)計HM方法來解決估計的最小支持度和最小置信度度量問題,使得FWAC可以使用多個規(guī)則來預(yù)測未知的實例。
本文只針對UCI上的乳腺癌數(shù)據(jù)集進行了實驗,故還存在局限性。對于未來的工作,需要在不同領(lǐng)域測試FWAC算法,首先從甘肅省腫瘤醫(yī)院的實際乳腺癌數(shù)據(jù)集開始。此外,我們還計劃研究不同的加權(quán)、修剪和預(yù)測技術(shù)的使用情況,并考察它們對不同領(lǐng)域的影響。