肖枝洪,李 季,王一超
(1.重慶理工大學(xué) 理學(xué)院,重慶 400054;2.內(nèi)蒙古赤峰市昭烏達(dá)中學(xué),內(nèi)蒙古 赤峰 024099)
醫(yī)療行業(yè)中充斥著大量高維非均衡醫(yī)療數(shù)據(jù)。在數(shù)據(jù)分析國(guó)際研討會(huì)議中將非平衡數(shù)據(jù)以及高維數(shù)據(jù)列為未來(lái)數(shù)據(jù)挖掘研究所面臨的具有挑戰(zhàn)性的十大問(wèn)題之一[1]。高維數(shù)據(jù)指數(shù)據(jù)特征多,不僅表現(xiàn)在數(shù)據(jù)的規(guī)模大,而且定義的數(shù)據(jù)不再僅僅局限于數(shù)字,醫(yī)療病例的文本、圖像、聲音和傳感器信息等一些可測(cè)量的信息都可數(shù)據(jù)化。這使得醫(yī)療數(shù)據(jù)的特征大大增加,數(shù)據(jù)結(jié)構(gòu)更加復(fù)雜。非均衡數(shù)據(jù)指分類任務(wù)的數(shù)據(jù)來(lái)自不同類別的樣本數(shù)目相差懸殊,又稱樣本比例失衡。在醫(yī)療領(lǐng)域中,正常數(shù)據(jù)是多數(shù)類,病理數(shù)據(jù)往往是少數(shù)類。人們通常更加關(guān)注于少數(shù)類,且將少數(shù)類誤判為多數(shù)類的代價(jià)通常會(huì)更大。因此為了訓(xùn)練出適合不平衡數(shù)據(jù)的分類模型,對(duì)不平衡數(shù)據(jù)進(jìn)行處理顯得格外重要。
對(duì)于高維數(shù)據(jù)的分類,通常都是先對(duì)數(shù)據(jù)進(jìn)行降維處理,也就是通過(guò)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行特征提取,獲得能夠?qū)颖具M(jìn)行較好分類的少量具有代表性特征。具體處理方法如低方差濾波、高相關(guān)濾波、向前特征選擇、向后特征提取、主成分分析、K-means指標(biāo)聚類、特征提取轉(zhuǎn)化等,都具有一定的局限性。低方差濾波是對(duì)一些指標(biāo)變化較小的指標(biāo)進(jìn)行刪除,但是這種方法不具備廣泛性,譬如一些醫(yī)療指標(biāo)即使變化很低,但是可能病癥就有很大的差別[2];高相關(guān)濾波與主成分分析適合數(shù)據(jù)集中存在高度相關(guān)的變量集情況,且有可能造成重要指標(biāo)被刪除的損失;向前特征選擇與向后特征提取2種方法耗時(shí)較久,計(jì)算成本都很高;K-means指標(biāo)聚類是以指標(biāo)之間的相似系數(shù)作為聚類標(biāo)準(zhǔn),對(duì)離群點(diǎn)太敏感,并且相似系數(shù)的閾值也需要人為確定。此時(shí)隨機(jī)森林(RF)機(jī)器學(xué)習(xí)模型體現(xiàn)了優(yōu)勢(shì),RF具有準(zhǔn)確率高、魯棒性好、易于使用、一般不需要繁瑣的步驟、適用于各種類型數(shù)據(jù)的優(yōu)點(diǎn)。該算法被廣泛應(yīng)用到諸如生命科學(xué)領(lǐng)域中對(duì)基因序列的分類和預(yù)測(cè)回歸[3-5]、金融經(jīng)濟(jì)領(lǐng)域中對(duì)企業(yè)和客戶信用的分析和反欺詐識(shí)別[6-8],以及人工智能AI等領(lǐng)域中的人臉識(shí)別[9],但是RF在指標(biāo)提取中有2種指標(biāo)重要度評(píng)價(jià)體系,往往得出的重要指標(biāo)排序不一致。對(duì)此用所提出的MAG算法進(jìn)行特征提取,尋找出具有代表性的特征,達(dá)到降維目的,并在選擇重要特征數(shù)量時(shí)對(duì)傳統(tǒng)的“剃須法”進(jìn)行改進(jìn),縮短算法運(yùn)算時(shí)間。
對(duì)于非均衡問(wèn)題,經(jīng)典的算法莫過(guò)于C’Hawla等[10]提出的SMOTE過(guò)采樣技術(shù),該方法屬于一種人工合成少數(shù)類樣本的過(guò)采樣技術(shù),根據(jù)過(guò)抽樣率,從少數(shù)類的一個(gè)樣本的K個(gè)最近鄰樣本中隨機(jī)選出若干個(gè),在該樣本和被選的近鄰樣本之間插值合成新的樣本。該算法原理簡(jiǎn)單,運(yùn)行速度快,但是SMOTE算法也有明顯的不足,不能有效解決非均衡邊界混合數(shù)據(jù)。Liu等[11]提出了SMOTE和Boost相結(jié)合的SVM算法,通過(guò)對(duì)高維空間的非線性變換將分類問(wèn)題轉(zhuǎn)換為二次尋優(yōu)解,其實(shí)驗(yàn)表明此方法在非平衡數(shù)據(jù)集上取得了較好的分類效果,但算法采用欠采樣與過(guò)采樣結(jié)合,不能保證數(shù)據(jù)的整體性。王超學(xué)等[12]提出了GA-SMOTE算法,將3個(gè)算子引入到SMOTE中,首先用選擇算子實(shí)現(xiàn)對(duì)少數(shù)類樣本有區(qū)別的選擇,再使用交叉算子和變異算子實(shí)現(xiàn)對(duì)合成樣本質(zhì)量的控制。然而此算法中的選擇算子仍然沒(méi)考慮邊界混合的樣本,而是以適應(yīng)度函數(shù)來(lái)確定,恰恰將混合區(qū)域數(shù)據(jù)視為重要樣本。盡管對(duì)于非均衡混合問(wèn)題后續(xù)也有相關(guān)學(xué)者研究,如鐘龍申等[13]提出了用基于K-means聚類算法改進(jìn)SMOTE算法來(lái)解決非均衡數(shù)據(jù)問(wèn)題,但此算法沒(méi)有擺脫K-means聚類嚴(yán)重依賴于初始點(diǎn)的缺點(diǎn)。馮宏偉等[14]針對(duì)非均衡數(shù)據(jù)分類效果不佳的問(wèn)題,提出了基于邊界混合采樣的非均衡數(shù)據(jù)處理方法(BMS)。該方法通過(guò)引進(jìn)“變異系數(shù)”尋覓樣本的邊界域與非邊界域,然后對(duì)邊界域中的少數(shù)類樣本進(jìn)行過(guò)采樣,對(duì)非邊界域中的多數(shù)類樣本進(jìn)行隨機(jī)欠采樣,從而達(dá)到訓(xùn)練數(shù)據(jù)基本平衡的目標(biāo),但是忽略邊界區(qū)域往往存在離群點(diǎn)的缺點(diǎn)。趙清華等[15]針對(duì)非均衡數(shù)據(jù)提出了三角質(zhì)心與最遠(yuǎn)距離法改進(jìn)傳統(tǒng)的SMOTE算法,改善了邊界混合插值困難的問(wèn)題。雖然此算法在解決邊界混合時(shí)體現(xiàn)了一些優(yōu)良性,但計(jì)算的步驟與運(yùn)算量也增加了數(shù)倍之多,算法準(zhǔn)確率提升過(guò)小。張喜蓮[16]提出了一種魯棒的半監(jiān)督降維算法,得到了更精確的數(shù)據(jù)結(jié)構(gòu),但是此算法中對(duì)正則化參數(shù)λ的要求十分苛刻,通常難以滿足。丁長(zhǎng)興等[17]介紹了最重要最基礎(chǔ)的梯度下降算法進(jìn)行了高維非均衡數(shù)據(jù)挖掘的研究,指出隨機(jī)梯度下降算法已成為機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)研究的焦點(diǎn),但也存在迭代復(fù)雜性和時(shí)間效率沒(méi)有很好解決的問(wèn)題。
醫(yī)療領(lǐng)域目前對(duì)于此類數(shù)據(jù)的研究,僅從高維或者非均衡的單一角度出發(fā)來(lái)解決問(wèn)題,兩者兼顧的整合算法幾乎沒(méi)有涉及。例如,陳旭等[2]針對(duì)醫(yī)療領(lǐng)域往往存在著樣本數(shù)據(jù)集非均衡的問(wèn)題,采用從多數(shù)類樣本中抽取部分樣本,與少數(shù)類樣本組成平衡數(shù)據(jù)集后再構(gòu)建模型,同時(shí)提出了一種新的基于迭代提升欠采樣的集成分類方法,但是破壞了數(shù)據(jù)的完整性,而且對(duì)于存在的高維問(wèn)題也沒(méi)有提出解決方法;龔彥等[18]針對(duì)醫(yī)療行業(yè)中的高維數(shù)據(jù)問(wèn)題,使用模糊神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行數(shù)據(jù)整合分析處理,將人工神經(jīng)網(wǎng)絡(luò)與模糊系統(tǒng)相結(jié)合,采用神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行特征選擇,用模糊系統(tǒng)中的隸屬度函數(shù)對(duì)數(shù)據(jù)進(jìn)行分類,但是此方法沒(méi)有對(duì)非均衡數(shù)據(jù)進(jìn)行均衡處理;王星等[19]提出了一種基于基因互作網(wǎng)絡(luò)正則化的雙聚類算法,對(duì)癌癥亞型進(jìn)行分類,其中聚類方法雖然通過(guò)正則化方式將高維問(wèn)題解決,但是依舊對(duì)非均衡狀況沒(méi)有考慮;胡滿滿等[20]發(fā)現(xiàn)了不同疾病發(fā)病率的差異性導(dǎo)致醫(yī)學(xué)樣本具有不均衡、小樣本的特點(diǎn),并且引入動(dòng)態(tài)采樣技術(shù)以構(gòu)造均衡數(shù)據(jù)集,利用模型在不同樣本上的預(yù)測(cè)結(jié)果來(lái)動(dòng)態(tài)更新樣本采樣概率,目的是確保模型可以更多地關(guān)注錯(cuò)誤分類樣本和分類置信度不高的樣本,從而提高預(yù)測(cè)模型的效果,但是對(duì)于醫(yī)療中的高維問(wèn)題沒(méi)有提出解決方法。
根據(jù)對(duì)上述文獻(xiàn)的分析探究,針對(duì)醫(yī)療中高維非均衡數(shù)據(jù)的整合問(wèn)題擬提出MAG算法和PDSSD-SMOTE方法相結(jié)合的整合算法,并基于帕金森氏病分類數(shù)據(jù)集[21]和常規(guī)結(jié)腸鏡檢查中的胃腸道病變數(shù)據(jù)集[22]進(jìn)行實(shí)驗(yàn)分析。首先采用MAG算法對(duì)高維數(shù)據(jù)非均衡進(jìn)行降維;降維后,采用動(dòng)態(tài)離差平方和(PDSSD)機(jī)器學(xué)習(xí)方法,改進(jìn)K-means機(jī)器學(xué)習(xí)方法對(duì)初始點(diǎn)的依賴性,將少數(shù)類也就是負(fù)類數(shù)據(jù)樣本進(jìn)行區(qū)域合理劃分;再利用少數(shù)類中高純度樣本區(qū)域重心點(diǎn)與近鄰間進(jìn)行插值來(lái)改進(jìn)SMOTE算法,讓具有邊界混合的負(fù)類樣本數(shù)據(jù)通過(guò)插值趨近于高純度樣本,從而提升非均衡數(shù)據(jù)取樣時(shí)的純度。然后在實(shí)驗(yàn)中應(yīng)用最小二乘支持向量機(jī)(LSSVM)與RF對(duì)運(yùn)用MAG算法和PDSSD-SMOTE方法整合后的數(shù)據(jù)進(jìn)行數(shù)據(jù)分類,以分析該方法分類的準(zhǔn)確性和精確性。
主要貢獻(xiàn)在于:① 改進(jìn)RF提取重要特征的準(zhǔn)則,提出了用組合標(biāo)準(zhǔn)的MAG算法來(lái)提取特征重要度信息;同時(shí)剔除相關(guān)性較大的特征,對(duì)用于重要指標(biāo)選取的“剃須法”進(jìn)行改進(jìn),縮短了運(yùn)算時(shí)間。② 采用PDSSD機(jī)器學(xué)習(xí)對(duì)負(fù)類樣本數(shù)據(jù)集進(jìn)行區(qū)域劃分,對(duì)區(qū)域中心與樣本間插值的SMOTE算法進(jìn)行改進(jìn),使樣本數(shù)據(jù)均衡更加合理。
表1 P個(gè)指標(biāo)n個(gè)樣本
(1)
也稱其為此類的質(zhì)心,i=1,2,…,nj,j=1,2,…,k。
表2 所屬各類的觀測(cè)
RF是決策樹的集合,通過(guò)投票方式進(jìn)行分類模擬,決策樹算法應(yīng)用廣泛,有ID3、C4.5[23-24]、CART 3種,CART樹是二叉樹[25],而ID3和C4.5可以是多叉樹。對(duì)于RF分叉的好壞有2個(gè)重要指標(biāo)評(píng)價(jià)指標(biāo):基尼系數(shù)節(jié)點(diǎn)純度估計(jì)與袋外數(shù)據(jù)(OOB)精度估計(jì)。但是往往根據(jù)2種標(biāo)準(zhǔn)對(duì)特征提取的結(jié)果不完全相同。為了使高維數(shù)據(jù)的特征提取沒(méi)有偏頗,將以MAG算法作為標(biāo)準(zhǔn)來(lái)進(jìn)行高維數(shù)據(jù)的特征提取。
1.1.1基尼系數(shù)
對(duì)于以基尼系數(shù)作為分叉標(biāo)準(zhǔn)的計(jì)算如下:
假設(shè)有K個(gè)類,樣本點(diǎn)x屬于第l個(gè)類的概率為Pl,則概率分布的基尼系數(shù)為:
如果樣本集合D根據(jù)特征F是否取某一可能值a被分割成D1與D2兩部分,即:
D1={x∈D|F(x)=a},D2=D-D1
則在特征F的條件下,集合D的基尼系數(shù)定義為:
(2)
將D中所有特征的基尼系數(shù)進(jìn)行排序,其最大值意味著對(duì)應(yīng)的特征最具代表性。然后對(duì)D1和D2按照上述方法挑選下一個(gè)特征,直到到達(dá)事先規(guī)定的葉節(jié)點(diǎn)為止,從而獲得相應(yīng)的具有代表性的一系列特征,這種方法數(shù)值型特征和字符型特征都可以適用。
1.1.2OOB精度
RF有一個(gè)重要的優(yōu)點(diǎn)就是不必要對(duì)它進(jìn)行交叉驗(yàn)證或者用一個(gè)獨(dú)立的測(cè)試集來(lái)獲得誤差的一個(gè)無(wú)偏估計(jì)。它可以在內(nèi)部進(jìn)行評(píng)估,也就是說(shuō)在生成的過(guò)程中就可以對(duì)誤差建立一個(gè)無(wú)偏估計(jì)。這是因?yàn)樵跇?gòu)建每棵樹時(shí),對(duì)訓(xùn)練集使用了不同的bootstrap sample方法。對(duì)于每棵樹(假設(shè)第k樹)而言,若有訓(xùn)練實(shí)例沒(méi)有參與到第k棵樹的生成,則稱該實(shí)例為第k棵樹的OOB袋外樣本。
OOB精度不僅可以利用OOB對(duì)模型性能進(jìn)行評(píng)價(jià),而且還可以用來(lái)判定特征的重要度。其原理是:對(duì)于某個(gè)特征變量,當(dāng)把噪聲信息加入到該特征后,RF的預(yù)測(cè)精度會(huì)顯著降低,這就說(shuō)明該特征重要程度很高;相反,若RF的預(yù)測(cè)精度沒(méi)明顯變化,則標(biāo)志該特征重要程度很低。指標(biāo)選取就是根據(jù)預(yù)測(cè)精度較少值確定的。
將在2.1節(jié)把基尼系數(shù)與OOB精度進(jìn)行組合,得到新的評(píng)價(jià)標(biāo)準(zhǔn),并用新的評(píng)價(jià)標(biāo)準(zhǔn)來(lái)對(duì)高維數(shù)據(jù)進(jìn)行降維處理。
為了方便說(shuō)明SMOTE算法原理,在表2中不妨取k=2。SMOTE算法原理為:樣本數(shù)據(jù)集分為樣本多數(shù)類(正類)C1與樣本少數(shù)類(負(fù)類)C2兩大類,根據(jù)歐幾里得距離從C2類樣本中挑選出距離第i個(gè)樣本最近的m個(gè)樣本;根據(jù)樣本數(shù)據(jù)平衡需要再?gòu)拇薽個(gè)樣本中隨機(jī)挑選iN個(gè)樣本并記為集合Yi,Yi={yi1,yi2,…,yiN}表示第i個(gè)樣本挑選的最近樣本集合,i=1,2,…,n2。然后在第i個(gè)樣本與其最近的iN個(gè)樣本之間進(jìn)行隨機(jī)插值,其值記為:
(3)
針對(duì)1.1節(jié)的問(wèn)題,本節(jié)通過(guò)整合2種對(duì)特征提取的標(biāo)準(zhǔn)而提出MAG算法。其思想就是將基尼系數(shù)節(jié)點(diǎn)純度與OOB確定變量重要度估計(jì)值二者綜合取平均值,然后依據(jù)該值重新對(duì)特征重要性進(jìn)行排序。MAG算法如下:
步驟1 對(duì)表1中的數(shù)據(jù)建立RF模型H。記ntree為RF中分類樹的個(gè)數(shù),mtry為RF中決策樹的每次分支時(shí)所選擇的變量個(gè)數(shù)。
步驟2 利用OOB數(shù)據(jù),測(cè)試RF中所有的分類樹,得到每棵樹的OOB估計(jì)的準(zhǔn)確率,并記ACCj為RF中第j棵分類樹的準(zhǔn)確率:
步驟3 隨機(jī)打亂OOB樣本數(shù)據(jù)中第i個(gè)特征的觀測(cè)值,也就是對(duì)之隨機(jī)重排。用此數(shù)據(jù)輸入到第j棵分類樹中進(jìn)行預(yù)測(cè),得到一個(gè)新準(zhǔn)確率ACCji。
步驟4 計(jì)算每個(gè)分類樹前后兩次OOB數(shù)據(jù)準(zhǔn)確率之差difji=|ACCj-ACCji|,計(jì)算第i個(gè)特征的重要程度:
(4)
依據(jù)式(4)計(jì)算每個(gè)特征的Difi并按從小到大順序進(jìn)行排列。
步驟5 根據(jù)式(2)計(jì)算各個(gè)特征基尼系數(shù)值Ginii,按從小到大順序進(jìn)行排列,并判斷與步驟4的順序是否一致,若不一致繼續(xù)步驟6。
步驟6 計(jì)算第i個(gè)特征綜合重要程度值:
(5)
依據(jù)式(5)計(jì)算所有指標(biāo)重要度,并從大到小進(jìn)行排序。記所有特征的綜合重要程度值集合T={index*1,index*2,…,index*p},其中index*1>index*2>…>index*p。
在RF特征重要度排序之后,如何選取特征重要度閾值是一個(gè)難點(diǎn),傳統(tǒng)的RF剃須法[26]是常用的方法,其原理為將所有指標(biāo)重要度從大到小排序,然后依次剔除重要值排名在后10%的特征。例如,假設(shè)有n個(gè)特征,不妨取n=100,剔除{indexn-9,…,indexn}所對(duì)應(yīng)的特征,再用剩余的90個(gè)特征建立RF模型。然后根據(jù)此模型,計(jì)算每個(gè)特征的重要程度值和OOB誤差。如此這般,一直到事先約定為止。這樣就得到一系列特征集合和OOB誤差,選擇OOB誤差最小且數(shù)據(jù)特征最少的特征集,但是這個(gè)剃須法在確定剔除比例時(shí)具有主觀性,不能根據(jù)特征集重要值進(jìn)行具體劃分,而且特征較多時(shí)運(yùn)算過(guò)于費(fèi)時(shí),為此提出了分段式的剃須法(segmentation shaving),根據(jù)第一次建立的RF得到的特征重要值進(jìn)行分段計(jì)算,分段的準(zhǔn)則依據(jù)實(shí)際特征重要值的均值與方差來(lái)確定,均值與方差計(jì)算方法如下式:
根據(jù)以上分段確定選取的特征數(shù),分別建立5個(gè)RF模型,選取OOB誤差最小且特征數(shù)最少的數(shù)據(jù)特征集。
得到最少特征數(shù)p1的數(shù)據(jù)特征集M后,計(jì)算特征的相關(guān)系數(shù)矩陣,給定閾值λ,將相關(guān)系數(shù)大于閾值的進(jìn)行相關(guān)性檢驗(yàn),剔除相關(guān)性較大的特征,將數(shù)據(jù)特征集進(jìn)一步優(yōu)化。
針對(duì)1.2節(jié)的問(wèn)題,本節(jié)假設(shè)表2中數(shù)據(jù)集C只有2 類:多數(shù)類樣本集C1和少數(shù)類樣本集C2。并假設(shè)C2潛在地可劃分為區(qū)域C21、C22和C23,如圖1所示。其中C21為C1和C2邊界混合附近的數(shù)據(jù)集;C22為C2中高純度數(shù)據(jù)集;C23為C2中離群點(diǎn)數(shù)據(jù)集。
圖1 少數(shù)類樣本集數(shù)據(jù)分布圖
為了使數(shù)據(jù)均衡,使用SMOTE算法對(duì)C2進(jìn)行過(guò)采樣。同時(shí)也為了避免過(guò)多地抽到邊界混合數(shù)據(jù)集C21中的數(shù)據(jù),采用文獻(xiàn)[27]中的PDSSD準(zhǔn)則下的機(jī)器學(xué)習(xí)方法對(duì)C2進(jìn)行劃分。動(dòng)態(tài)離差平和準(zhǔn)則下的機(jī)器學(xué)習(xí)是根據(jù)總體離差平方和不變,依次調(diào)整樣本的類別,使類內(nèi)樣本離差平方和最小,類間離差平方和最大,能夠保證機(jī)器學(xué)習(xí)減少對(duì)初始點(diǎn)的依賴度。
首先,從C2中計(jì)算樣本距離矩陣,隨機(jī)選定這3個(gè)初始凝聚點(diǎn),運(yùn)用PDSSD機(jī)器學(xué)習(xí)法將C2劃分為3類,仍然記為C21、C22和C23。
其次,根據(jù)式(1)計(jì)算C21、C22和C23樣本集的質(zhì)心分別為d21、d22和d23。再計(jì)算3個(gè)樣本集的質(zhì)心與最近多數(shù)類樣本集質(zhì)心的距離:
比較υ21與υ22、υ23的大小進(jìn)行排序,如果υ21<υ22<υ23,則說(shuō)明d22所在的數(shù)據(jù)集C22是高純度少數(shù)類樣本集,就選擇C22進(jìn)行中心SMOTE算法插值。
再次改進(jìn)中心SMOTE算法:采用樣本集質(zhì)心與樣本之間插值,即
(6)
將此算法叫做PDSSD機(jī)器學(xué)習(xí)中心插值法,簡(jiǎn)稱為PDSSD-SMOTE算法。
本次實(shí)驗(yàn)采用R3.4.4與Matlab 6.0數(shù)據(jù)分析軟件進(jìn)行實(shí)驗(yàn)數(shù)據(jù)分析。
此實(shí)驗(yàn)數(shù)據(jù)來(lái)源于UCI(http://archive.ics.uci.edu/ml/index.php)機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中的2個(gè)醫(yī)療數(shù)據(jù)集,數(shù)據(jù)集1:“Gastrointestinal Lesions in Regular Colonoscopy”;數(shù)據(jù)集2:“Voice Back”數(shù)據(jù)集。數(shù)據(jù)集1為二分類樣本數(shù)據(jù)集,其中特征變量為698個(gè),多數(shù)類(正類)樣本量為55,少數(shù)類(負(fù)類)樣本量為21;數(shù)據(jù)集2也為二分類樣本數(shù)據(jù)集,其中特征變量為752個(gè),多數(shù)類(正類)樣本量為564,少數(shù)類(負(fù)類)樣本量為192,2個(gè)醫(yī)療數(shù)據(jù)集顯然都為高維非均衡數(shù)據(jù),如表3所示。數(shù)據(jù)集1和2的特征變量均為數(shù)值變量。
表3 數(shù)據(jù)樣本集矩陣
采用F-value、G-mean值和Accuracy值作為分類器的評(píng)價(jià)標(biāo)準(zhǔn),其中TP和TN分別表示分類中正類和負(fù)類樣本正確分類的樣本數(shù)量;FN和FP分別表示為正類與負(fù)類被錯(cuò)分的樣本數(shù)量。
(7)
(8)
(9)
RF對(duì)于特征重要度評(píng)價(jià)有2種體系,驗(yàn)證2種體系得出的特征重要度排名是否一致,根據(jù)式(2)與式(4)分別計(jì)算得到各個(gè)特征的基尼系數(shù)與OOB估計(jì)重要度。因?yàn)樘卣髯兞窟^(guò)多,在此僅展示前30個(gè)特征變量的基尼系數(shù)與OOB估計(jì)值,2個(gè)數(shù)據(jù)集的結(jié)果分別如圖2與圖3所示。
圖2 數(shù)據(jù)集1基于OOB估計(jì)值與基尼系數(shù)指標(biāo)重要度排名
圖3 數(shù)據(jù)集2基于OOB估計(jì)值與基尼系數(shù)指標(biāo)重要度排名
從圖2、圖3可以看出2種指標(biāo)評(píng)價(jià)體系在指標(biāo)重要程度排名上是不相同的,所以有必要運(yùn)用MAG優(yōu)化算法,再次對(duì)指標(biāo)重要度進(jìn)行排序。
根據(jù)MAG算法式(5)計(jì)算得到所有特征變量重要度值,其中重要度大于0的指標(biāo)為167個(gè),表示數(shù)據(jù)樣本中698個(gè)指標(biāo)只有167個(gè)為有效指標(biāo)。再將167個(gè)有效指標(biāo)根據(jù)分段剃須法選取出35個(gè)特征,作為數(shù)據(jù)降維后的特征,特征重要度數(shù)值如表4和表5所示。
表4 數(shù)據(jù)集1在MAG算法下得到特征重要度數(shù)值
表5 數(shù)據(jù)集2在MAG算法下得到特征重要度數(shù)值
對(duì)上述MAG算法得到的特征集計(jì)算相關(guān)系數(shù)矩陣,設(shè)定閾值λ為0.9,并對(duì)大于閾值的特征進(jìn)行相關(guān)性檢驗(yàn),得到相關(guān)性較弱的重要度高的最優(yōu)特征集,如表6和表7所示。
表6 數(shù)據(jù)集1特征相關(guān)性檢驗(yàn)篩選后得到特征集
表7 數(shù)據(jù)集2特征相關(guān)性檢驗(yàn)篩選后得到特征集
為驗(yàn)證數(shù)據(jù)集是否存在混合情況,運(yùn)用PDSSD算法將數(shù)據(jù)集1和2在PDSSD準(zhǔn)則下分別進(jìn)行第一次聚類,其實(shí)驗(yàn)結(jié)果如表8所示。
表8 數(shù)據(jù)集1和2的PDSSD算法第一次聚類結(jié)果
表9 數(shù)據(jù)集1和2的負(fù)類樣本集PDSSD算法第二次聚類結(jié)果
表10 數(shù)據(jù)集1合成前后負(fù)類樣本
表11 數(shù)據(jù)集2合成前后負(fù)類樣本
表12 不同方法降維后的數(shù)據(jù)集1和2在2種分類器下分類效率
表13 不同方法整合后的數(shù)據(jù)集1和2在2種分類器下的分類效率
為驗(yàn)證提出的算法具有優(yōu)勢(shì),將提出的算法與處理非均衡高維數(shù)據(jù)的主流算法BP神經(jīng)網(wǎng)絡(luò)與隨機(jī)梯度下降的支持向量機(jī)算法相比較,分類效率如表13和表14所示。
表14 數(shù)據(jù)集1和2在不同算法下的分類效率
從表13和表14可以看出,2種算法分別對(duì)數(shù)據(jù)集1和2的3個(gè)分類評(píng)價(jià)值都低于提出的MAG-PDSSD-SMOTE算法的數(shù)據(jù)集的分類評(píng)價(jià)值。因?yàn)锽P神經(jīng)網(wǎng)絡(luò)算法和隨機(jī)梯度下降支持向量機(jī)算法沒(méi)有對(duì)數(shù)據(jù)進(jìn)行整合,所以運(yùn)算時(shí)間比MAG算法與PDSSD-SMOTE算法相結(jié)合的算法運(yùn)行時(shí)間要短。
實(shí)驗(yàn)表明,在疾病的輔助預(yù)診中,越高的召回率和越好的F-value和G-mean具有更小的診斷風(fēng)險(xiǎn),對(duì)疾病的輔助決策具有更重要的價(jià)值。所提出的MAG-PDSSD-SMOTE算法整合數(shù)據(jù)之后,模型對(duì)常規(guī)結(jié)腸鏡檢查中的胃腸道病變的分類效率和帕金森病的分類效率有了明顯提升。這正是因?yàn)镸AG-PDSSD-SMOTE算法能夠更加關(guān)注醫(yī)療行業(yè)的少數(shù)類樣本和預(yù)測(cè)過(guò)程中的易錯(cuò)樣本,從而保證了模型預(yù)測(cè)準(zhǔn)確性,提高了模型效率,使其具有更小的診斷風(fēng)險(xiǎn)。
由于經(jīng)典的SMOTE算法與RF算法對(duì)高維非均衡數(shù)據(jù)進(jìn)行整合時(shí)存在不足,即RF在特征提取中有2種特征重要度評(píng)價(jià)體系,往往得出的重要指標(biāo)排序不一致,且特征提取的“剃須法”過(guò)于耗時(shí),SMOTE算法對(duì)混合非均衡狀態(tài)數(shù)據(jù)均衡處理時(shí),不能對(duì)邊界混合數(shù)據(jù)進(jìn)行識(shí)別而實(shí)現(xiàn)有區(qū)別插值。針對(duì)上述問(wèn)題,首先提出了RF組合評(píng)價(jià)標(biāo)準(zhǔn)的MAG算法,對(duì)于特征提取標(biāo)準(zhǔn)提出了“分段剃須法”,從而有效地克服了RF的特征重要度雙標(biāo)準(zhǔn)以及特征提取剃須法過(guò)于費(fèi)時(shí)的弊端。對(duì)于少數(shù)類數(shù)據(jù)的均衡處理提出了可以進(jìn)行區(qū)域劃分的MAG-PDSSD-SMOTE算法,解決了SMOTE算法對(duì)邊界混合的少數(shù)類數(shù)據(jù)純度不高的問(wèn)題,也避免了K-means-SMOTE算法對(duì)初始聚類點(diǎn)的依賴問(wèn)題。實(shí)驗(yàn)中將各算法整合后的數(shù)據(jù)集進(jìn)行分類比較,結(jié)果表明對(duì)于高維非均衡數(shù)據(jù)的分類所提出的算法有較為明顯的優(yōu)勢(shì)。
RF和LSSVM兩種分類器對(duì)上述數(shù)據(jù)集進(jìn)行分類的情況都驗(yàn)證了對(duì)于高維非均衡邊界混合數(shù)據(jù),直接運(yùn)用SMOTE算法不能有效均衡數(shù)據(jù)結(jié)構(gòu),所提出的MAG-PDSSD-SMOTE算法對(duì)傳統(tǒng)SMOTE算法具有顯著的改進(jìn)效果,且優(yōu)于經(jīng)典的K-mean-SMOTE算法。但是從各個(gè)算法對(duì)數(shù)據(jù)集整合并分類的時(shí)間來(lái)看,所提出的MAG-PDSSD-SMOTE算法所用時(shí)間要遜于其他算法,這是算法的復(fù)雜性所造成的。
此外,在研究過(guò)程中也注意到:非均衡數(shù)據(jù)結(jié)構(gòu)做均衡處理時(shí),如果數(shù)據(jù)集中存在字符型數(shù)據(jù)時(shí)如何計(jì)算其距離的問(wèn)題;SMOTE算法無(wú)法有效處理那些特征變量是定性變量的數(shù)據(jù)集,對(duì)定型變量進(jìn)行SMOTE插值會(huì)使其數(shù)值失去實(shí)際意義;如何提升MAG-PDSSD-SMOTE算法運(yùn)算速度等問(wèn)題,將在今后的研究中繼續(xù)探討。