• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      中醫(yī)臨床不均衡數(shù)據(jù)疾病分類方法研究

      2018-01-17 09:10:34潘主強(qiáng)張林張磊李國(guó)正顏仕星
      智能系統(tǒng)學(xué)報(bào) 2017年6期
      關(guān)鍵詞:特征選擇亞健康分類器

      潘主強(qiáng),張林,張磊,李國(guó)正,顏仕星

      數(shù)據(jù)挖掘在中醫(yī)輔助診斷中受到日益重視,而計(jì)算機(jī)輔助診斷本質(zhì)上是一個(gè)數(shù)據(jù)挖掘分類任務(wù)[1],分類性能的好壞直接影響到了輔助診斷的能力。在現(xiàn)實(shí)生活中,經(jīng)常出現(xiàn)不均衡數(shù)據(jù)。例如在醫(yī)學(xué)中的醫(yī)療診斷問(wèn)題,患有某種病的個(gè)體往往是少數(shù)的;機(jī)械方面的故障檢測(cè)[2]中有研究表明,在旋轉(zhuǎn)機(jī)械中齒輪故障占其故障的10%左右。類似的問(wèn)題也存在于圖像檢測(cè)、通信領(lǐng)域客戶流失預(yù)測(cè)[3]等領(lǐng)域中。對(duì)于不均衡數(shù)據(jù)分類,傳統(tǒng)的數(shù)據(jù)挖掘分類方法上往往傾向于多數(shù)類(較多的一類數(shù)據(jù)),而對(duì)于少數(shù)類(較少的一類數(shù)據(jù))的分類效果較差。但在實(shí)際生活中,人們更加關(guān)注少數(shù)類的分類情況。例如對(duì)中醫(yī)臨床數(shù)據(jù)進(jìn)行的疾病分類過(guò)程中,人們更加關(guān)注有病個(gè)體的分類情況。少數(shù)類的分類性能直接影響到了計(jì)算機(jī)的輔助診斷能力,同時(shí)也關(guān)系到醫(yī)生的診斷效率。在不均衡數(shù)據(jù)的分類中,少數(shù)類錯(cuò)分為多數(shù)類的代價(jià)遠(yuǎn)遠(yuǎn)高于多數(shù)類錯(cuò)分為少數(shù)類的代價(jià),一些“偏愛(ài)”多數(shù)類的傳統(tǒng)分類方法就不再適用。

      不均衡數(shù)據(jù)引起了人們的重視。近年來(lái),針對(duì)不均衡數(shù)據(jù)分類提出了很多算法,已有的算法主要是從數(shù)據(jù)集的層面、分類器層面以及分類器和數(shù)據(jù)相結(jié)合的這3種方式[4]來(lái)處理使不均衡數(shù)據(jù)分類。數(shù)據(jù)集的層面主要有欠采樣和過(guò)采樣,但是這兩種方法并沒(méi)有針對(duì)數(shù)據(jù)的實(shí)際特點(diǎn),因此分類效果有待進(jìn)一步提高。在中醫(yī)臨床的不均衡數(shù)據(jù)中,如果僅僅使用欠采樣,可能會(huì)丟失很多有重要信息的數(shù)據(jù);使用過(guò)采樣簡(jiǎn)單復(fù)制又會(huì)出現(xiàn)過(guò)于擬合的現(xiàn)象。中醫(yī)臨床數(shù)據(jù)很多特征來(lái)自于人體相關(guān)參數(shù)的測(cè)量,但是對(duì)于某類疾病,某些特征是不相關(guān)的或者是冗余的,甚至某些特征會(huì)影響分類器的性能[5]。實(shí)際上對(duì)于某類疾病而言,有些特征沒(méi)有包含或者包含極少的疾病狀態(tài)信息,它們對(duì)分類結(jié)果幾乎沒(méi)有影響,因此需要使用特征選擇移除冗余特征[6]。

      本文結(jié)合中醫(yī)臨床不均衡數(shù)據(jù)的實(shí)際情況,在已有研究的基礎(chǔ)上結(jié)合欠采樣和特征選擇提出了不均衡的裝袋算法(asymmetric bagging, AB)[12]的改進(jìn)算法,基于預(yù)測(cè)風(fēng)險(xiǎn)的最遠(yuǎn)病例不均衡裝袋算法(prediction risk based feature selection for FPUSAB,PRFS-FPUSAB)來(lái)處理不均衡分類問(wèn)題和特征選擇問(wèn)題。

      1 不均衡數(shù)據(jù)分類性能評(píng)價(jià)

      傳統(tǒng)分類的性能評(píng)價(jià)是從分類器的整體分類情況來(lái)考慮,即考慮所有樣本的分類精度。缺乏類別的針對(duì)性,特別是比較受關(guān)注的少數(shù)類。在不均衡數(shù)據(jù)中,少數(shù)類樣本更容易錯(cuò)分并且所占比例不大,所以對(duì)少數(shù)類的誤分在總體分類性能上指標(biāo)變化也不大。如果以準(zhǔn)確度作為衡量指標(biāo),往往可能具有欺騙性,并且對(duì)數(shù)據(jù)的變化很敏感。例如,一個(gè)數(shù)據(jù)集中只有10%的少數(shù)類樣本,有90%的多數(shù)類樣本。一個(gè)最簡(jiǎn)單的分類方法就是將所有少數(shù)類均分類為多數(shù)類,那么可以得到90%的準(zhǔn)確度。雖然表面來(lái)看,準(zhǔn)確度值很高,但是實(shí)際上此分類方法是失敗的,因?yàn)樯贁?shù)類未得到正確分類。因此準(zhǔn)確度作為性能評(píng)價(jià)指標(biāo)不能全面體現(xiàn)分類算法的分類能力。

      針對(duì)傳統(tǒng)的性能指標(biāo)存在的缺陷,很多學(xué)者在研究不均衡數(shù)據(jù)分類時(shí)使用以下幾個(gè)性能指標(biāo)。表1為二類分類混淆矩陣,TP、FP、FN、TN分別代表真正、真負(fù)、假正、假負(fù)。

      表1 二類分類混淆矩陣Table 1 Confusion matrix

      表1中將少數(shù)類稱為正性或者陽(yáng)性,多數(shù)類稱為負(fù)性或者陰性,第1行與第2行分別表示實(shí)際的少數(shù)類和多數(shù)類數(shù)量。TN與TP分別表示分類后被正確分類的多數(shù)類和少數(shù)類。FP表示實(shí)際是少數(shù)類而被誤分為多數(shù)類的數(shù)量,F(xiàn)N表示實(shí)際為多數(shù)類而被誤分為少數(shù)類的數(shù)量。根據(jù)表1中內(nèi)容,相關(guān)定義如下。

      靈敏度(Sensitivity):亦稱真陽(yáng)性率(TPR)、召回率(Recall),表示所有正類樣本中被正確分類的樣本比例,可用來(lái)衡量對(duì)正類樣本的分類能力,計(jì)算如式 (1),即

      特異度(Specificity):亦稱真陰性率,與真陽(yáng)性率相對(duì),它表示所有負(fù)類樣本中被正確分類的樣本比例,可用來(lái)衡量對(duì)負(fù)類樣本的分類能力,計(jì)算如式 (2),即

      平均準(zhǔn)確度(balanced accuracy):

      陽(yáng)性預(yù)測(cè)值PPV(positive predictive value):

      陰性預(yù)測(cè)值NPV(negative predictive value):

      整個(gè)數(shù)據(jù)集被正確分類的正確率Correction:

      以上幾個(gè)分類指標(biāo)雖然在一定程度上能夠比較準(zhǔn)確地衡量模型的性能,但是在更一般的分類問(wèn)題中它們?nèi)匀皇怯芯窒扌?。為了解決這個(gè)問(wèn)題,人們從醫(yī)療分析領(lǐng)域引入了一種新的模型性能評(píng)判方法:受試者工作特征曲線分析(receiver operating characteristic,ROC)[7],ROC 分析的主要內(nèi)容是二維平面上的ROC曲線,平面以false positive rate(FPR)為橫坐標(biāo),以true positive rate(TPR)為縱坐標(biāo)。對(duì)于某個(gè)分類器,可以基于其在測(cè)試樣本上的TPR和FPR性能來(lái)獲得二維點(diǎn)。以這種方式,分類器可以映射到ROC平面上的點(diǎn)。調(diào)整此分類器使用的閾值以獲取多個(gè)不同的點(diǎn),連接這些點(diǎn)最終可以得到一個(gè)經(jīng)過(guò)(0,0),(1,1)的曲線,這就是此分類器的ROC曲線。引入ROC后,衡量不同分類算法的性能可以用曲線下面積(area under the curve, AUC)作為評(píng)價(jià)指標(biāo),AUC就是處于ROC曲線下方的那部分面積的大小。面積越大,模型分類性能越強(qiáng),模型性能越好,ROC曲線越接近左上角。

      2 數(shù)據(jù)層面解決不均衡數(shù)據(jù)分類方法

      從數(shù)據(jù)出發(fā),在對(duì)數(shù)據(jù)集進(jìn)行重構(gòu)的過(guò)程中使用某種機(jī)制來(lái)獲得更均衡的數(shù)據(jù)分布,這種方式稱為重采樣,其實(shí)質(zhì)相當(dāng)于一種預(yù)處理數(shù)據(jù)均衡化方法。研究者先后提出多種采樣技術(shù),歸納起來(lái)可分為3種:欠采樣、過(guò)采樣、基于前二者的混合采樣[8]。

      欠采樣是從原數(shù)據(jù)集中移除一些多數(shù)類樣本,以實(shí)現(xiàn)類別樣本數(shù)目相同。最基本的隨機(jī)欠采樣是隨機(jī)地從原始數(shù)據(jù)集中移除多數(shù)類樣本,縮小多數(shù)類的規(guī)模,以實(shí)現(xiàn)具有和少數(shù)類樣本數(shù)量相同。但該方法在將多數(shù)類樣本刪除的同時(shí)有可能會(huì)丟失具有代表性意義的樣本信息,造成信息丟失影響分類效果。而過(guò)采樣是使用某種機(jī)制來(lái)往原始數(shù)據(jù)集添加樣本,使得多數(shù)類和少數(shù)類均衡分布。最基本的隨機(jī)過(guò)采樣通過(guò)隨機(jī)復(fù)制少數(shù)類樣本使數(shù)據(jù)均衡分布,由于只是簡(jiǎn)單地將少數(shù)類復(fù)制后添加到原始數(shù)據(jù)集中,會(huì)出現(xiàn)很多“重復(fù)”樣本,進(jìn)而出現(xiàn)過(guò)于擬合現(xiàn)象[9]。

      趙自翔等[10]指出了欠采樣和過(guò)采樣的優(yōu)缺點(diǎn)并基于欠采樣提出了一種新的采樣方式并取得了較好的效果,但是這種采樣方式主要是盡量往均衡靠近,沒(méi)有從根本上解決不均衡。同時(shí)針對(duì)已有采樣方式的問(wèn)題,已有的研究嘗試將欠采樣與過(guò)采樣相結(jié)合。例如朱明等[11]提出了RU-SMOTE-SVM算法,該算法結(jié)合了隨機(jī)欠采樣方法和人工合成少數(shù)類樣本的SMOTE算法;李等[12]結(jié)合混合抽樣策略和Bagging提出了不均衡裝袋算法,在生物信息學(xué)上的不均衡數(shù)據(jù)分類上取得了較好的效果。

      中醫(yī)臨床數(shù)據(jù)采集的是來(lái)自病人身體體征相關(guān)的實(shí)際數(shù)據(jù),由于對(duì)合成樣本的真實(shí)性的質(zhì)疑,所以中醫(yī)臨床數(shù)據(jù)較少使用SMOTE人工合成少數(shù)類樣本的方法進(jìn)行疾病分類。在欠采樣和過(guò)采樣在對(duì)不均衡數(shù)據(jù)分類的效果上,DRUMMOND等[13]為欠采樣在性能上優(yōu)于過(guò)采樣。

      3 PRFS-FPUSAB算法

      在中醫(yī)臨床數(shù)據(jù)中,每一個(gè)樣本都是個(gè)體的生命體征數(shù)據(jù),當(dāng)把它們放到樣本空間時(shí),每一個(gè)樣本就是樣本空間的一個(gè)樣本點(diǎn)。在隨機(jī)欠采樣過(guò)程中,如果保留某一個(gè)有限區(qū)域中的樣本點(diǎn)時(shí),可能有大量的有價(jià)值樣本點(diǎn)被丟棄;如果隨機(jī)選取的樣本都集中在某一個(gè)區(qū)域,那么會(huì)造成過(guò)于擬合的現(xiàn)象。對(duì)應(yīng)實(shí)際情景:如果在選取病人病例時(shí)選取了很多具有同樣特征且未患病的人,那么根據(jù)他們的情況來(lái)判斷其他不具有這些特征的人的患病情況時(shí),往往不會(huì)得到想要的結(jié)果,或者判斷趨于隨機(jī)。如果能在樣本的每一區(qū)域均保留一定量的樣本,則能夠預(yù)防最壞的“失真”情況發(fā)生。對(duì)于某一區(qū)域樣本來(lái)講,它們到一個(gè)定點(diǎn)的距離應(yīng)該是相差不大的。對(duì)應(yīng)的臨床實(shí)際:在一個(gè)具有相似特征的病人群體中選取具有一個(gè)來(lái)代表這個(gè)群體,每一個(gè)群體選取一個(gè),那么遇到新病患的時(shí)候,我們判斷的依據(jù)就多了,就能夠更有效地對(duì)疾病進(jìn)行分類。

      因此,為了在一次欠采樣過(guò)程中盡可能保持多數(shù)類樣本本來(lái)的類別特點(diǎn),采用如下的方法:如圖1(a)中黑色圓點(diǎn)為多數(shù)類樣本的均值點(diǎn),計(jì)算所有多數(shù)類樣本與該均值點(diǎn)的距離,在距離相近的每個(gè)小區(qū)域中,保留一個(gè)點(diǎn)而去掉余下的點(diǎn),并將保留下的所有多數(shù)類樣本作為新的多數(shù)類樣本集和原有的正類樣本一起組成新訓(xùn)練集,如圖1(b)所示。

      圖1 最遠(yuǎn)病例抽樣方式Fig. 1 Furthest patient sampling method

      傳統(tǒng)的分類算法在均衡的數(shù)據(jù)集上具有很好的效果。不均衡的裝袋算法(asymmetric bagging,AB)算法基于均衡的思想運(yùn)用隨機(jī)欠采樣,每次從多數(shù)類中隨機(jī)選取與少數(shù)類等量的樣本,再將這部分樣本和少數(shù)類合并在一起構(gòu)成新的數(shù)據(jù)集,然后反復(fù)多次構(gòu)成多個(gè)訓(xùn)練子集?;谠诰鈹?shù)據(jù)的分類中SVM取得了比較好的分類效果[14],AB算法將構(gòu)成的新的若干個(gè)均衡數(shù)據(jù)集交由SVM進(jìn)行訓(xùn)練,最后由訓(xùn)練成的若干個(gè)模型集成決策獲得測(cè)試樣本的分類結(jié)果。但是AB使用的是隨機(jī)欠采樣,就不能避免出現(xiàn)“失真”情況。

      3.1 Asymmetric Bagging算法

      輸入 測(cè)試數(shù)據(jù)集(Training data set Sr), 子集的特征數(shù)F;

      輸出 集成的模型。

      1) 數(shù)據(jù)的預(yù)處理。刪除缺失比較嚴(yán)重的數(shù)據(jù),并對(duì)缺失較少的數(shù)據(jù)進(jìn)行填充。

      2) 將Training data set分為有病的數(shù)據(jù)子集和無(wú)病的數(shù)據(jù)子集。

      3) 根據(jù)循環(huán)抽樣的次數(shù),產(chǎn)生訓(xùn)練小模型:

      FOR i = 1 to M

      ② 用SVM的方法訓(xùn)練Sk并計(jì)算這個(gè)子集的fauc。

      FOR j = 1 to F

      ③ 使用SVM分類器訓(xùn)練較小的子集Sk得到模型NK。

      End for

      4)集成獲得的模型NK,通過(guò)最大投票法來(lái)決定分類問(wèn)題。

      中醫(yī)臨床數(shù)據(jù)癥狀的模糊性的一個(gè)重要表現(xiàn)是中醫(yī)臨床數(shù)據(jù)的特征繁多,可能會(huì)出現(xiàn)多個(gè)特征用于記錄同一癥狀,或者某些特征數(shù)據(jù)與疾病是不相關(guān)的,甚至某些特征會(huì)影響分類器的性能[5]。這些情況會(huì)帶來(lái)干擾,降低分類性能。由于中醫(yī)臨床數(shù)據(jù)中存在著這些問(wèn)題結(jié)合數(shù)據(jù)挖掘,在針對(duì)某類疾病進(jìn)行分類研究時(shí),需要特征選擇去除不相關(guān)特征和冗余特征,力求以最少的特征來(lái)表達(dá)原始信息,并達(dá)到最優(yōu)的預(yù)測(cè)或分類精度。特征選擇對(duì)應(yīng)現(xiàn)實(shí)意義相當(dāng)于中醫(yī)辨證論治過(guò)程中講究的抓主癥。在中醫(yī)臨床診斷過(guò)程中,抓主癥需要醫(yī)生具有豐富的經(jīng)驗(yàn),而這些經(jīng)驗(yàn)需要經(jīng)過(guò)很長(zhǎng)的時(shí)間才能培養(yǎng)起來(lái)。如果能通過(guò)使用特征選擇來(lái)輔助醫(yī)師進(jìn)行抓主癥,那么對(duì)于推動(dòng)中醫(yī)的發(fā)展具有非常重要的意義。

      在已有研究[15]的基礎(chǔ)上,使用預(yù)測(cè)風(fēng)險(xiǎn)標(biāo)準(zhǔn)來(lái)處理中醫(yī)臨床不均衡數(shù)據(jù)疾病分類特征選擇的問(wèn)題。PRFS(prediction risk based feature selection)是一種以prediction risk為特征重要性評(píng)價(jià)準(zhǔn)則的特征選擇算法。評(píng)價(jià)準(zhǔn)則prediction risk由Moody和Utans[16]首先提出,通過(guò)計(jì)算數(shù)據(jù)中某個(gè)特征在所有樣本上的取值都替換成均值后評(píng)價(jià)指標(biāo)的變化,來(lái)評(píng)價(jià)該特征的價(jià)值。由于所分類的數(shù)據(jù)是不均衡數(shù)據(jù),結(jié)合不均衡分類數(shù)據(jù)評(píng)價(jià)指標(biāo),基于不均衡數(shù)據(jù)的預(yù)測(cè)風(fēng)險(xiǎn)標(biāo)準(zhǔn)相應(yīng)的公式為

      式中:fauc是應(yīng)用整個(gè)訓(xùn)練集分類計(jì)算出來(lái)的曲線下面積,fauc(i)是當(dāng)訓(xùn)練集第i個(gè)特征用它的平均值替換后計(jì)算出來(lái)的曲線下面積。如果第i個(gè)特征引起的面積變化是最小的,那么第i個(gè)特征將會(huì)被刪除。

      結(jié)合上面敘述基于欠采樣的數(shù)據(jù)采樣方法,Bagging算法、SVM提出了AB的改進(jìn)算法基于預(yù)測(cè)風(fēng)險(xiǎn)的最遠(yuǎn)病例不均衡裝袋算法(全稱PRFSFPUSAB)。在PRFS-FPUSAB算法中,首先通過(guò)計(jì)算多數(shù)類樣本的中心點(diǎn)(多數(shù)類樣本均值點(diǎn)),然后計(jì)算多數(shù)類中所有樣本和中心點(diǎn)的距離,根據(jù)距離從大到小排列多數(shù)類樣本。再根據(jù)設(shè)定的Bagging中的袋數(shù)bagnumber、少數(shù)類樣本數(shù)量,從已按照距離從大到小排列的數(shù)據(jù)集中移出多數(shù)類樣本,構(gòu)成bagnumber個(gè)小的數(shù)據(jù)子集。在每次生成數(shù)據(jù)子集后,首先使用預(yù)測(cè)風(fēng)險(xiǎn)標(biāo)準(zhǔn)進(jìn)行特征選擇,然后將經(jīng)過(guò)特征選擇后的數(shù)據(jù)交由SVM進(jìn)行訓(xùn)練,待所有數(shù)據(jù)子集訓(xùn)練完成后構(gòu)成若干個(gè)小的模型,最后對(duì)測(cè)試集分類的結(jié)果由這些小模型投票決定。在對(duì)數(shù)據(jù)子集進(jìn)行特征選擇的過(guò)程中,仍然使用SVM分類器計(jì)算fauc(i),然后使用式對(duì)特征i進(jìn)行判斷是否保留,如果不滿足條件,移除特征i。同時(shí)記錄對(duì)于每次選擇的特征,這部分在算法中沒(méi)有說(shuō)明。

      3.2 PRFS-FPUSAB算法

      輸入 測(cè)試數(shù)據(jù)集(Training data set Sr), 循環(huán)抽樣次數(shù)(number of circles M), 子集的特征數(shù)F。

      輸出 集成的模型。

      1) 數(shù)據(jù)的預(yù)處理。刪除缺失比較嚴(yán)重的數(shù)據(jù),并對(duì)缺失較少的數(shù)據(jù)進(jìn)行填充。

      2) 將Training data set分為有病的數(shù)據(jù)子集和無(wú)病的數(shù)據(jù)子集,并統(tǒng)計(jì)二者的數(shù)量Countpo和Countne。

      5) 根據(jù)循環(huán)抽樣的次數(shù),產(chǎn)生訓(xùn)練小模型:

      6) 判斷M是否大于Countne%Countne,如果大于則終止程序。

      FOR i = 1 to M

      FOR j = 1 to Countpo

      ① 置 count為 0;

      End for

      FOR i = 1 to F

      ⑤ 用SVM方法訓(xùn)練St并計(jì)算這個(gè)子集的fauc。將訓(xùn)練子集中第i個(gè)特征值置為平均值,計(jì)算fauc(i),根據(jù)式(7)計(jì)算預(yù)測(cè)風(fēng)險(xiǎn)Pj,如果Pj大于0,就選中第j個(gè)特征。

      End for

      ⑥ 根據(jù)訓(xùn)練St選中的特征子集構(gòu)成較小的子集Srt,同時(shí)記錄所選擇的特征。

      ⑦ 使用SVM分類器訓(xùn)練較小的子集Srt得到模型 Nk。

      End for

      7) 集成獲得的模型Nk,通過(guò)最大投票法來(lái)決定分類問(wèn)題。

      在PRFS-FPUSAB算法中,由于在一個(gè)群體中選取一個(gè)并且選取的樣本只出現(xiàn)一次,因此對(duì)集成模型的規(guī)模也有限制,集成規(guī)模bagnumber最多不能超過(guò)不均衡程度Ratio(多數(shù)類數(shù)量和少數(shù)類數(shù)量之比)。

      4 數(shù)據(jù)集來(lái)源與預(yù)處理

      實(shí)驗(yàn)采用臨床采集的經(jīng)絡(luò)電阻值數(shù)據(jù),共3 053例樣本。本文中選取其中的原穴經(jīng)絡(luò)電阻數(shù)據(jù),數(shù)據(jù)包含左右各十二原穴、性別、身高、體重、年齡等28個(gè)特征。

      在采集的3 053例樣本中,不同類別疾病數(shù)據(jù)缺失情況不同,如表2。在刪除嚴(yán)重缺失的數(shù)據(jù)并對(duì)不嚴(yán)重的數(shù)據(jù)并填充后,我們發(fā)現(xiàn)對(duì)于健康與亞健康類疾病較為完整樣本534例,其中健康類數(shù)據(jù)439例,亞健康類數(shù)據(jù)95例;對(duì)于睡眠情緒類疾病剩余2 214例樣本,睡眠情緒類疾病具體有睡眠障礙、焦慮癥、抑郁癥3種亞型。在使用數(shù)據(jù)進(jìn)行實(shí)驗(yàn)時(shí),我們對(duì)數(shù)據(jù)集的樣本類別作了一些歸并,全部歸并為為二類問(wèn)題。其中患有睡眠情緒類疾病206例,未患睡眠情緒類疾病數(shù)2 008例。需要注意的是,傳統(tǒng)中醫(yī)并沒(méi)有亞健康這個(gè)概念,也沒(méi)有歸納出睡眠情緒類疾病這個(gè)病種。亞健康、睡眠情緒類疾病都是西醫(yī)的診斷。我們的研究工作基礎(chǔ)是結(jié)合中醫(yī)的臨床數(shù)據(jù)對(duì)于西醫(yī)的疾病進(jìn)行分類。

      表2 實(shí)驗(yàn)所用數(shù)據(jù)集信息Table 2 The dataset for the experiment

      針對(duì)收集的中醫(yī)臨床數(shù)據(jù)可以發(fā)現(xiàn)健康與亞健康數(shù)據(jù)中健康個(gè)體超過(guò)了亞健康個(gè)體,在睡眠情緒類疾病未患病人數(shù)遠(yuǎn)超過(guò)患病人數(shù),而在臨床過(guò)程中往往更加關(guān)注少數(shù)類個(gè)體。在針對(duì)收集的中醫(yī)臨床數(shù)據(jù)可以發(fā)現(xiàn)健康與亞健康數(shù)據(jù)中健康個(gè)體超過(guò)了亞健康個(gè)體,在睡眠情緒類疾病未患病人數(shù)遠(yuǎn)超過(guò)患病人數(shù),而在臨床過(guò)程中往往更加關(guān)注少數(shù)類個(gè)體。在需要注意的是,傳統(tǒng)中醫(yī)并沒(méi)有亞健康這個(gè)概念,也沒(méi)有歸納出睡眠情緒類疾病這個(gè)病種。亞健康、睡眠情緒類疾病都是西醫(yī)的診斷。我們的研究工作基礎(chǔ)是結(jié)合中醫(yī)的臨床數(shù)據(jù)對(duì)于西醫(yī)的疾病進(jìn)行分類。

      5 實(shí)驗(yàn)結(jié)果與分析

      為了分析算法性能,采用多種方法進(jìn)行實(shí)驗(yàn)分析。在傳統(tǒng)的分類算法上,選擇具有代表性的decision tree(J48)、Naive Bayes、SVM、Bagging;在已有的不均衡數(shù)據(jù)分類算法中,選擇不均衡的支持向量機(jī)(unbalanced SVM,unSVM)、基于不均衡的支持向量Bagging(Bagging based on unbalanced SVM,unBagging)、Asymmetric Bagging算法,使用上述7種方法同PRFS-FPUSAB算法進(jìn)行比較。所有的實(shí)驗(yàn)使用10-fold交叉驗(yàn)證去評(píng)估AUC以及相關(guān)的性能,為了排除隨機(jī)性,每次實(shí)驗(yàn)重復(fù)10次。其中decision tree(J48)、Naive Bayes、Bagging 使用 JAVA語(yǔ)言調(diào)用Weka[17]相關(guān)的分類器;SVM、unSVM、un-Bagging、Asymmetric Bagging使用JAVA語(yǔ)言調(diào)用LibSVM[18],相關(guān)程序都基于JAVA語(yǔ)言實(shí)現(xiàn)。在試驗(yàn)中為了便于比較使用算法的性能Bagging、Asymmetric Bagging、PRFS-FPUSAB、SVM使用相同的參數(shù)設(shè)置。在實(shí)驗(yàn)中其他方法的參數(shù)使用默認(rèn)的參數(shù)設(shè)置。實(shí)驗(yàn)主要是測(cè)試PRFS-FPUSAB算法能否提高AUC、Bacc以及通過(guò)特征選擇的特征是否符合中醫(yī)學(xué)相關(guān)理論。由于PRFS-FPUSAB算法對(duì)裝袋的數(shù)量有所限制,為了比較在Bagging、unBagging、AB、PRFS-FPUSAB算法袋數(shù)的設(shè)置上為1。分類結(jié)果如表3、表4所示,表中health表示亞健康類疾病、sleep表示睡眠情緒類疾病。

      表3 中醫(yī)臨床亞健康類疾病不均衡數(shù)據(jù)分類結(jié)果Table 3 Sub -health disease imbalance data classification results %

      表4 中醫(yī)臨床睡眠情緒類疾病不均衡數(shù)據(jù)疾病分類結(jié)果Table 4 Sleep disorders disease disequilibrium data disease classification results %

      從表3、表4中可以看出傳統(tǒng)的分類算法J48、Naive Bayes、SVM對(duì)于不均衡數(shù)據(jù)的分類效果較差;相比較而言,AB、PRFS-FPUSAB對(duì)于不均衡數(shù)據(jù)分類較好;unSVM并沒(méi)有有效的改善的SVM的性能,unBagging相較于Bagging只是很小的改善了性能;Bagging算法的效果也比較差。

      就主要分類指標(biāo)AUC、Bacc而言,PRFS-FPUSAB算法優(yōu)于其他算法。在decision tree(J48)、Naive Bayes、SVM、Bagging這幾個(gè)方法中,Naive Bayes對(duì)于不均衡數(shù)據(jù)分類有一個(gè)比較好的效果。雖然Naive Bayes在AUC方面和AB算法相差不大,但是在Bacc方面明顯Asymmetric Bagging算法優(yōu)于Naive Bayes。為什么Naive Bayes在AUC方面和AB算法相差不大呢,主要原因是在比較實(shí)驗(yàn)中,我們只裝了一袋,也就是說(shuō)實(shí)際上只是從多數(shù)類中隨機(jī)選擇了和少數(shù)類相同數(shù)量的樣本放在一起和少數(shù)類構(gòu)成新的訓(xùn)練集,然后交給SVM進(jìn)行訓(xùn)練。由于這里只訓(xùn)練出了一個(gè)模型,所以分類效果會(huì)差一些。同時(shí)可以看出即使只建立了一個(gè)模型,F(xiàn)PUSAB算法也是優(yōu)于AB算法的。那么裝的袋數(shù)會(huì)對(duì)分類的效果造成一個(gè)什么樣的影響呢?如果裝的袋數(shù)多了,AB算法是否會(huì)優(yōu)于PRFS-FPUSAB算法呢?繼續(xù)用實(shí)驗(yàn)探討。

      從圖2中可以看出,隨著集成模型的增加,AUC、Bacc出現(xiàn)增長(zhǎng)趨勢(shì),由于Bagging、unBagging采用的是隨機(jī)欠采樣,所以隨著集成規(guī)模的增加出現(xiàn)振蕩性的變化;而AB的效果要比PRFS-FPUSAB的效果要差。當(dāng)N大于3,AB下降幅度要比PRFSFPUSAB大,說(shuō)明PRFS-FPUSAB穩(wěn)定性要優(yōu)于AB。當(dāng)N為3時(shí),PRFS-FPUSAB、AB效果最好。PRFS-FPUSAB算法AUC約為0.80,Bacc約為0.73;AB算法AUC約為0.67,Bacc約為0.64。

      從圖3中可以看出,對(duì)于睡眠情緒類疾病不均衡數(shù)據(jù)分類AUC、Bacc結(jié)果隨著集成模型數(shù)量出現(xiàn)不同變化趨勢(shì)。由于采樣的隨機(jī)性Bagging、un-Bagging出現(xiàn)振蕩性的變化;而對(duì)于AB、PRFSFPUSAB當(dāng)N小于5時(shí),AB存在著一個(gè)振蕩的變化,PRFS-FPUSAB存在著一個(gè)較為穩(wěn)定的增長(zhǎng);當(dāng)N大于5時(shí),AB、PRFS-FPUSAB都存在著一個(gè)下滑的趨勢(shì),從下滑的幅度以及整體的效果來(lái)看,PRFS-FPUSAB要優(yōu)于AB。當(dāng)N為5時(shí),PRFS-FPUSAB、AB效果最好。在最優(yōu)值方面,PRFS-FPUSAB算法AUC最優(yōu)約為0.85,Bacc最優(yōu)約為0.80;AB AUC最優(yōu)約為0.75,Bacc最優(yōu)約為0.72。

      圖2 亞健康類疾病分類結(jié)果Fig. 2 Sub-health classification results

      圖3 睡眠情緒類疾病分類結(jié)果Fig. 3 Sub-health classification results

      在PRFS-FPUSAB算法中由于改進(jìn)采樣方式對(duì)集成的數(shù)量進(jìn)行了限制。但是Bagging、unBagging、AB對(duì)于集成規(guī)模并沒(méi)有限制。是否這幾個(gè)算法隨著集成規(guī)模的增加會(huì)有不同的效果,或者說(shuō)當(dāng)這幾個(gè)算法在集成規(guī)模較大時(shí)是否由于PRFS-FPUSAB算法呢,繼續(xù)用實(shí)驗(yàn)進(jìn)行探討。由于health類疾病和sleep類疾病的不均衡規(guī)模不同,在health類疾病我們選取的規(guī)模為{10, 15, 20, 25},在sleep類疾病我們選取的規(guī)模為{15, 20, 25, 30, 35, 40, 45, 50}。

      從圖4中可以看出,隨著集成規(guī)模的增加,health類不均衡疾病數(shù)據(jù)的分類結(jié)果AUC、Bacc呈現(xiàn)出了一定幅度的增長(zhǎng),但是很快地又回落了。由于這種采樣的方式是隨機(jī)的,造成結(jié)果出現(xiàn)了振蕩性的變化。AB算法最優(yōu) AUC約為0.75,Bacc約為0.71。與PRFS-FPUSAB算法最優(yōu)結(jié)果相比,AB算法要相對(duì)差一些。

      圖4 亞健康類疾病分類結(jié)果隨著集成規(guī)模變化曲線圖Fig. 4 The change of sub-health classification results

      從圖5中可以看出,隨著集成規(guī)模的增加,sleep類不均衡疾病數(shù)據(jù)的分類結(jié)果AUC、Bacc呈現(xiàn)出了振蕩性的變化,大致趨勢(shì)為先增加后下降,并且下降趨勢(shì)為結(jié)果越來(lái)越差。由于采樣的方式的隨機(jī)造成了結(jié)果出現(xiàn)了振蕩性的變化。AB算法最優(yōu)AUC約為0.75,Bacc約為0.72。與PRFS-FPUSAB算法最優(yōu)結(jié)果相比,AB算法要相對(duì)差一些。

      從以上的探討性實(shí)驗(yàn)可以看出,PRFS-FPUSAB算法是幾種算法中最優(yōu)的。經(jīng)過(guò)統(tǒng)計(jì)分析發(fā)現(xiàn),相較于改進(jìn)前的AB算法,PRFS-FPUSAB算法在AUC上平均提升16%,在Bacc上平均提升13%。改進(jìn)后的算法較好地提升了分類性能。

      圖5 睡眠情緒類疾病分類結(jié)果隨著集成規(guī)模變化Fig. 5 The change of sleep classification results

      對(duì)于健康、亞健康類疾病PRFS-FPUSAB算法選擇出的特征有age、height、weight,對(duì)應(yīng)的穴位有陽(yáng)池左、合谷右、神門右、太溪右。根據(jù)選擇出的特征,我們對(duì)健康與亞健康人群穴位電阻值進(jìn)行了對(duì)比,如表5所示。

      表5 健康、亞健康特征選擇后穴位平均值Table 5 The mean value of acupoints after feature selection

      從表5可以看出,亞健康人群右側(cè)的合谷、神門、太溪的穴位平均值要高于健康個(gè)體,而在左側(cè)的陽(yáng)池穴亞健康個(gè)體的穴位平均值要低于健康個(gè)體平均值。從中醫(yī)理論上講,亞健康與健康人群的判別標(biāo)準(zhǔn)中出現(xiàn)的4個(gè)原穴分別屬于大經(jīng)、心經(jīng)、腎經(jīng)和三焦經(jīng),而亞健康人群之所以在這四經(jīng)上表現(xiàn)出特異性,多由于亞健康的表現(xiàn)與四經(jīng)絡(luò)的生理功能異常密切相關(guān)。亞健康狀態(tài)的表現(xiàn)多種多樣,《亞健康中醫(yī)診療指南》將其歸納為軀體、心理、社會(huì)交往3個(gè)方面。臨床診療中亞健康的這些表現(xiàn)恰好與以上4條經(jīng)絡(luò)及其臟腑功能異常有關(guān),這也解釋了為何亞健康人群在這4條經(jīng)的原穴上與健康人群有著顯著差異。

      針對(duì)睡眠情緒類疾病選中的特征有神門左、神門右、太沖左、腕骨左、腕骨右、身高、體重。由于睡眠情緒類疾病和健康、亞健康可用樣本數(shù)量不一致,將身高、體重轉(zhuǎn)換為BMI指數(shù)重新統(tǒng)計(jì)分析。

      與睡眠情緒類疾病密切相關(guān)的特征神門、太沖、腕骨分別是心經(jīng)、肝經(jīng)和小腸經(jīng)的原穴。從中醫(yī)理論角度進(jìn)行分析,睡眠情緒類疾病與這3條經(jīng)脈關(guān)系密切:心臧神;肝主疏泄,調(diào)暢情志;小腸經(jīng)與心經(jīng)相表里,心經(jīng)實(shí)火可以下移小腸。睡眠情緒類疾病患者BMI指數(shù)偏低,說(shuō)明該類疾病患者體型偏瘦,這與中醫(yī)理論中瘦人多火,火熱易擾心神的觀點(diǎn)是一致的,如表6所示。

      表6 睡眠情緒類疾病特征選擇分析結(jié)果Table 6 Sleep emotional disease feature selection analysis results

      綜合上面探討可知,通過(guò)特征選擇的特征符合中醫(yī)學(xué)有關(guān)疾病理論,并且找到的診斷子集能夠有效提升分類性能。在臨床診斷中,可以通過(guò)特征選擇輔助醫(yī)生抓主癥。

      6 結(jié)束語(yǔ)

      本文中結(jié)合中醫(yī)臨床數(shù)據(jù)實(shí)際提出了Asymmetric Bagging的改進(jìn)算法PRFS-FPUSAB處理中醫(yī)臨床不均衡數(shù)據(jù)的疾病分類問(wèn)題和特征選擇問(wèn)題。實(shí)驗(yàn)表明,與改進(jìn)前的算法相比,PRFS-FPUSAB算法在AUC上平均提升16%,在Bacc上平均提升13%。改進(jìn)后的算法較好地提升了分類性能,通過(guò)特征選擇后的特征也符合中醫(yī)學(xué)相關(guān)理論。雖然使用PRFS-FPUSAB算法在AUC以及Bacc上分類性能有較好的提高,但是從分類器的角度研究不均衡數(shù)據(jù)分類,更好地提高AUC以及Bacc還需進(jìn)一步研究。

      [1]鄒永杰. 基于特征提取的分類集成在脾虛證診斷中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2010, 27(3): 22–25.ZOU Yongjie. Applying feature selection-based classification ensemble in spleen asthenia diagnosis[J]. Computer ap-plications and software, 2010, 27(3): 22–25.

      [2]劉天羽, 李國(guó)正. 齒輪故障不均衡分類問(wèn)題的研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2010, 46(20): 146–148.LIU Tianyu, LI Guozheng. Research on imbalanced problems in gear fault diagnosis[J]. Computer engineering and applications, 2010, 46(20): 146–148.

      [3]謝娜娜, 房斌, 吳磊. 不均衡數(shù)據(jù)集上文本分類方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2013, 49(20): 118–121.XIE Nana, FANG Bin, WU Lei. Study of text categorization on imbalanced data[J]. Computer engineering and applications, 2013, 49(20): 118–121.

      [4]陶新民, 郝思媛, 張冬雪, 等. 不均衡數(shù)據(jù)分類算法的綜述[J]. 重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版, 2013, 25(1): 101–43.TAO Xinmin, HAO Siyuan, ZHANG Dongxue, et al. Overview of classification algorithms for unbalanced data[J].Journal of chongqing university of posts and telecommunications, 2013, 25(1): 101–43.

      [5]LIUT Y, LI G Z. The imbalanced data problem in the fault diagnosis of rolling bearing[J]. Computer engineering and science, 2010, 32(5): 150–153.

      [6]YU K S. A Network intrusion detection model based on data ming and feature selection schemes[J]. Microelectronics and computer, 2011, 28(8): 74–76.

      [7]ZWEIG M H, CAMPBELLmpbell G. Receiver-operating characteristic (ROC) plots: a fundamental evaluation tool in clinical medicine[J]. Clinical chemistry, 1993, 39(4):561–77.

      [8]浮盼盼. 大規(guī)模不均衡數(shù)據(jù)分類方法研究[D]. 大連:遼寧師范大學(xué), 2014.FU Panpan. Research on classification methods for largescale imbalanced data [D]. Liaoning normal university,2014.

      [9]MIERSWA I. Controlling overfitting with multi-objective support vector machines[C]//Genetic and Evolutionary Computation Conference. London, UK, 2007: 1830–1837.

      [10]趙自翔, 王廣亮, 李曉東. 基于支持向量機(jī)的不均衡數(shù)據(jù)分類的改進(jìn)欠采樣方法[J]. 中山大學(xué)學(xué)報(bào):自然科學(xué)版,2012, 51(6): 10–16.ZHAO Zixiang, WANG Guangliang, LI Xiaodong. An improved SVM based under-sampling method for classifying imbalanced data[J]. Acta scientiarum naturalium universitatis sunyatseni, 2012, 51(6): 10–16.

      [11]朱明, 陶新民. 基于隨機(jī)下采樣和SMOTE的不均衡SVM分類算法[J]. 信息技術(shù), 2012(1): 39–43.ZHU MING, TAO Xingmin. The SVM classifier for unbalanced data based on combination of RU-Undersample and SMOTE[J]. Information technology, 2012(1): 39–43.

      [12]LI G Z, MENG H H, LU W C, et al. Asymmetric bagging and feature selection for activitiesprediction of drug molecules[C]//International Multi-Symposiums on Computer and Computational Sciences. [S.l.], 2007: 1–11.

      [13]DRUMMOND C, HOLTE R C. C4.5, Class imbalance,and cost sensitivity: why under-sampling beats oversampling[C]//Proc of the Icml Workshop on Learning from Imbalanced Datasets II, 2003: 1–8.

      [14]BHAVANI S, NAGARGADDE A, THAWANI A, et al.Substructure-based support vector machine classifiers for prediction of adverse effects in diverse classes of drugs[J].Journal of chemical information and modeling, 2007,46(7): 2478–2486.

      [15]潘主強(qiáng), 張林, 顏仕星, 等. 中醫(yī)睡眠情緒類疾病不均衡數(shù)據(jù)的分類研究[J]. 濟(jì)南大學(xué)學(xué)報(bào):自然科學(xué)版, 2017,31(1): 55–60.PAN Zhuqiang, ZHANG Lin, YAN Shixing, et al. Classification research on imbalanced TCM clinical data of sleep and emotion disorder disease[J]. Journal of university of Jinan: science and technology, 2017, 31(1): 55–60.

      [16]UTANS J, MOODY J. Selecting neural network architectures via the prediction risk: application to corporate bond rating prediction[C]//International Conference on Artificial Intelligence on Wall Street. [S.l.], 1991: 35–41.

      [17]WITTEN I H, FRANK E. Data mining: practical machine learning tools and techniques with Java implementations[M]. Morgan Kaufmann Publishers Inc, 2011: 206–207.

      [18]CHANG C C, LIN C J. LIBSVM: a library for support vector machines[J]. Acm transactions on intelligent systems and technology, 2007, 2(3): 389–396.

      猜你喜歡
      特征選擇亞健康分類器
      甩掉亞健康 我們?cè)谛袆?dòng)
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      豬群亞健康
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      《內(nèi)經(jīng)》治未病與亞健康的干預(yù)
      兒童亞健康防治
      博乐市| 翁牛特旗| 额济纳旗| 肇源县| 涟水县| 繁昌县| 沿河| 浪卡子县| 石城县| 汝州市| 莎车县| 出国| 亳州市| 通江县| 江孜县| 桐梓县| 资中县| 那坡县| 秀山| 长宁县| 黑水县| 博罗县| 龙陵县| 北海市| 玉溪市| 寿光市| 湖北省| 柳州市| 汝南县| 宁都县| 广安市| 乌兰县| 湖南省| 阜平县| 新竹市| 临泽县| 政和县| 双辽市| 随州市| 宝应县| 都昌县|