• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      中醫(yī)臨床疾病數(shù)據(jù)多標(biāo)記分類方法研究*

      2018-08-15 08:24:26潘主強(qiáng)李國正顏仕星
      計算機(jī)與生活 2018年8期
      關(guān)鍵詞:類別病例分類

      潘主強(qiáng),張 林,張 磊,李國正,顏仕星

      1.西南石油大學(xué) 計算機(jī)科學(xué)學(xué)院,成都 610500

      2.中國中醫(yī)科學(xué)院 中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所,北京 100700

      3.中國中醫(yī)科學(xué)院 中醫(yī)藥數(shù)據(jù)中心,北京 100700

      4.上海金燈臺信息科技有限公司,上海 201800

      1 引言

      在二分類問題和多分類問題中,每個樣本只屬于一個標(biāo)記只屬于某一個類,可歸結(jié)為單標(biāo)記學(xué)習(xí)問題[1]。但在現(xiàn)實世界中,每個樣本可能同時屬于多個類別,這是典型的多標(biāo)記學(xué)習(xí)問題[2]。并且現(xiàn)實世界中多標(biāo)記學(xué)習(xí)任務(wù)無處不在[3],如一個人可能患有多種疾病,風(fēng)景圖片可能包含多種語義類別。這些問題不同于二分類問題和多分類問題,由于類別間的相關(guān)性和共現(xiàn)性,使它處理起來比單標(biāo)記問題要困難得多。因此多標(biāo)記學(xué)習(xí)已成為機(jī)器學(xué)習(xí)領(lǐng)域研究熱點,并受到了廣泛關(guān)注[4]。

      在已有的多標(biāo)記學(xué)習(xí)算法中,多標(biāo)記k近鄰(multi-labelknearest neighbor,ML-kNN)[5]算法是目前常用的一種多標(biāo)記學(xué)習(xí)方法,具有較好的性能。但是ML-kNN算法在學(xué)習(xí)過程中,k是一個預(yù)先確定的值,沒有考慮樣本本身的特點,并且樣本類別間存在不均衡問題。在中醫(yī)臨床疾病數(shù)據(jù)中,這種情況非常普遍,如一個患者可能患有多種疾病,具體到每個疾病而言,疾病類別的數(shù)據(jù)之間可能存在不均衡的情況。在已有的多標(biāo)記學(xué)習(xí)算法中,對于多標(biāo)記的不均衡研究也較少[6]。而數(shù)據(jù)挖掘在中醫(yī)輔助診斷中被日益重視,計算機(jī)輔助診斷其實就是數(shù)據(jù)挖掘分類任務(wù)[7],分類性能的好壞直接影響到輔助診斷的能力。如果能夠提高多標(biāo)記分類的性能,對于提高輔助診斷能力也是非常有幫助的。結(jié)合中醫(yī)臨床疾病數(shù)據(jù)的實際情況,在WML-kNN(weighted multilabelknearest neighbor)的基礎(chǔ)上結(jié)合權(quán)重以及粒計算提出了改進(jìn)算法——基于粒計算的WML-kNN(weighted multi-label granularknearest neighbor,WMLGkNN),對中醫(yī)臨床疾病數(shù)據(jù)進(jìn)行多標(biāo)記分類研究。

      2 ML-kNN算法和WML-kNN算法

      現(xiàn)有多標(biāo)記學(xué)習(xí)的分類算法大多數(shù)是應(yīng)用單標(biāo)記分類算法的思想,比較有代表性的是多標(biāo)記學(xué)習(xí)問題轉(zhuǎn)化為若干個獨立的二分類學(xué)習(xí)問題的BR(binary relevance)[8]算法,直接將多標(biāo)記學(xué)習(xí)問題轉(zhuǎn)化為多類學(xué)習(xí)問題[9]的RAkEL(randomk-label sets)算法,周志華等人提出的多標(biāo)記k近鄰(ML-kNN)[5]算法,基于神經(jīng)網(wǎng)絡(luò)改進(jìn)的BP-MLL[10](back-propagation multi-label learning)算法。在已有的算法中,運用比較多的是ML-kNN算法。

      在單標(biāo)記空間中,k近鄰算法的核心是首先尋找出預(yù)測樣本在訓(xùn)練集中的近鄰,然后所有近鄰以其本身的類別情況對此預(yù)測樣本進(jìn)行投票,那么此樣本的類標(biāo)就與得票多的一方的類標(biāo)相同。在ML-kNN算法中,首先需要在訓(xùn)練階段對訓(xùn)練數(shù)據(jù)集的樣本進(jìn)行統(tǒng)計,通過對訓(xùn)練樣本的k近鄰進(jìn)行統(tǒng)計與分析,計算出不同的近鄰分布情況下的先驗概率和后驗概率。對于每個測試樣本,首先確定它的k個近鄰樣本;然后根據(jù)k個近鄰樣本的標(biāo)記信息,用最大后驗概率(maximum a posteriori,MAP)準(zhǔn)則預(yù)測它的類別標(biāo)記集合。但是針對中醫(yī)臨床疾病數(shù)據(jù),ML-kNN算法有個很大的缺陷:具體到某個標(biāo)記,數(shù)據(jù)類別出現(xiàn)不均衡。

      在ML-kNN算法中,如果樣本中某個類數(shù)量過少,致使取到的k個近鄰中該類所占的比例較小,易造成錯分[11]。在中醫(yī)臨床疾病類別數(shù)據(jù)中,這種情況比較常見。例如,在中醫(yī)臨床多標(biāo)記疾病數(shù)據(jù)中心血管類疾病,患病的個體要少于未患病的個體。如果按照ML-kNN算法進(jìn)行分類,分類效果不會太好。為了解決多標(biāo)記數(shù)據(jù)中存在的類別不均衡問題,張順等人[11]基于ML-kNN和權(quán)重提出了WML-kNN算法(如算法1)。WML-kNN算法的主要思想是:先求得樣本的近鄰集,根據(jù)近鄰集的類別情況對樣本類別的先驗概率進(jìn)行加權(quán)處理,以提高少數(shù)類的權(quán)重,減少分類的錯誤率。WML-kNN在一些公開數(shù)據(jù)集上取得了較好的效果。

      算法1WML-kNN算法

      輸入:訓(xùn)練數(shù)據(jù)集Sk,近鄰集合大小k,測試數(shù)據(jù)t。

      輸出:測試數(shù)據(jù)t的類別標(biāo)記。

      1.對于每一個類別標(biāo)記,計算其先驗概率。

      2.計算測試數(shù)據(jù)t和訓(xùn)練數(shù)據(jù)集Sk的距離。

      3.根據(jù)設(shè)定的k和距離確定測試數(shù)據(jù)t的近鄰集合Q(x)。

      4.計算每一個類別標(biāo)記的后驗概率。

      5.對于每一個類別標(biāo)記重復(fù)步驟6、7。

      6.根據(jù)近鄰集合Q(x)和式(2)計算類別標(biāo)記權(quán)重w。

      7.對先驗概率用w加權(quán),然后用ML-kNN方法確定是否賦予標(biāo)記l。

      8.確保每個標(biāo)記都得到賦值,結(jié)束。

      但是WML-kNN和ML-kNN算法都還存在另一個問題,在構(gòu)建樣本的近鄰集時大小是一個預(yù)先設(shè)定的固定值。樣本的最近鄰個數(shù)是每次執(zhí)行前預(yù)先給定的,沒有考慮到各個樣本點的具體情況。在中醫(yī)臨床數(shù)據(jù)中,每一個樣本(實例)都是一個具體病例。由于個體的特殊性,很可能每個病例所具有的相似病例是不同的(即不同的近鄰群體),如果按照每個病例樣本構(gòu)建近鄰集時都采用相同的固定值,對于下面兩種情況可能會有一個比較差的效果:一是由于某些病人具有一定的特殊性,很可能和他相似的病例不多,采用固定的k值納入了不相似的病例樣本;二是和他相似的病例很多,但是按照固定的k值卻沒有完全將相似的樣本納入其中。

      為了形象描述這兩種情況,將這兩種情況用圖1來表示。圖中正方形和圓形均表示樣本點。如圖1(a)所示,黑色的正方形點和白色正方形點距離較遠(yuǎn),相似度較差,具有較大的差異性。但如果此時k取8,黑色的正方形點將會被加入最近鄰集。如圖1(b)所示,圓形點和白色正方形點距離較近,相似度基本相同。但如果此時k取8,會有圓形點不被加入最近鄰集。

      Fig.1 Neighbors are constructed with fixed neighbors圖1 采用固定近鄰大小構(gòu)建的近鄰

      從上述情況來看,采用固定值來構(gòu)建病例樣本的近鄰樣本集不能充分反映中醫(yī)臨床數(shù)據(jù)樣本分布特點,勢必對分類結(jié)果有所影響,而且對于k值的選取并沒有成熟的指導(dǎo)理論。之前陳小波等人[12]嘗試將粒計算的思想融入ML-kNN方法來解決近鄰k的取值問題。本文結(jié)合中醫(yī)臨床疾病數(shù)據(jù)的實際情況,基于權(quán)重和粒計算在WML-kNN的基礎(chǔ)上提出改進(jìn)算法WML-GkNN來處理中醫(yī)臨床的多標(biāo)記問題和數(shù)據(jù)類別的不均衡問題。

      3 WML-GkNN算法

      根據(jù)粒計算的相關(guān)理論,多標(biāo)記學(xué)習(xí)論域就是所有的樣本點。這里需要定義一個等價關(guān)系簇來構(gòu)造不同層次的粒度空間,然后通過這些粒度空間來求解多標(biāo)記學(xué)習(xí)問題。設(shè)0=e0<e1<e2<…<em<…,且當(dāng)m→+∞ 時em→+∞,則可知E={[ej-1,ej],j=1,2,…}構(gòu)成了[0,+∞]的一個劃分,一個劃分可以構(gòu)成一個等價關(guān)系。e(x,y)為論域X上的一種距離,x0為一給定的樣本點,定義:

      則容易證明R是X上的等價關(guān)系,且可以通過j選取的不同來形成不同的等價關(guān)系,從而形成論域X上的不同層次粒度空間。具體到ML-kNN算法以及中醫(yī)臨床疾病數(shù)據(jù),在構(gòu)建樣本近鄰集時,為了選取到與測試樣本病例相似性高的近鄰病例,設(shè)置一個比率property(簡寫為pro),通過該值來控制樣本近鄰點k的個數(shù)。對于給定測試樣本x,設(shè)訓(xùn)練集中與它的距離從小到大的點依次為x1,x2,…,xk,…,相應(yīng)距離表示dis(x,xj)。

      這里選擇最近鄰集中最后一個樣本點q滿足式(1)條件,則x1,x2,…,xk,…,xq相互等價。通過pro的取值大小可以控制粒度的粗細(xì),即等價類的大小。這樣對于某一給定的樣本點,其最近鄰樣本點的個數(shù)以及具體的樣本點都可以由pro來確定,而pro既可以通過人工手動設(shè)置,也可以通過最優(yōu)化方法求得。

      在WML-GkNN算法中,首先通過粒計算方式求出樣本病例最可能的近鄰集;其次根據(jù)近鄰集的類別標(biāo)記信息對該樣本病例類別的先驗概率加權(quán),再求出最大后驗概率;最后得到測試樣例的類別標(biāo)記。

      在WML-GkNN算法中,設(shè)Q(x)和|Q(x)|分別表示測試樣本的最近鄰樣本集和最近鄰樣本集的大小。對于類標(biāo)集合L中的每一個類計算正例和負(fù)例的概率P(po)和P(ne)。對每個類,相應(yīng)的權(quán)重為:

      在WML-GkNN算法中,先驗概率的計算和ML-kNN算法相同。計算訓(xùn)練集中每個標(biāo)記的先驗概率和

      式(3)中,l∈L;s為平滑參數(shù)(smoothing parameter),需要預(yù)先給定,通常情況下s設(shè)置為1,對應(yīng)Laplace平滑。在引入粒計算的基礎(chǔ)上,由于不同的樣本近鄰集大小不同,對于后驗概率的計算略有不同。為了避免混淆,有如下定義:由pro確定的測試樣本t的最近鄰集大小為st;Elj(st)表示測試樣本t的si個最近鄰中恰好有j個樣本都含有標(biāo)記l這一事件;b(st)[j]表示訓(xùn)練集樣本中自身含有標(biāo)記l且它的st個近鄰?fù)瑫r含有標(biāo)記l的樣本數(shù)目;b(st)′[j]表示訓(xùn)練集樣本中自身不含有標(biāo)記l但它的st個近鄰?fù)瑫r含有標(biāo)記l的樣本數(shù)目。

      相應(yīng)的后驗概率為:

      測試樣本t的類別標(biāo)記向量Cl和標(biāo)記隸屬度向量Ml為:

      WML-GKNN算法如算法2所示。首先計算各個標(biāo)記的先驗概率,然后計算測試樣本t與訓(xùn)練集中樣本實例的距離,并按照距離由小到大排序,然后根據(jù)pro和式(1)決定最近鄰集合Q(x),為了便于同其他算法比較,Q(x)設(shè)定的k值為樣本最小近鄰集。根據(jù)Q(x)和式(2)計算各個類別的權(quán)重w,根據(jù)權(quán)重w對先驗概率加權(quán)后,用式(7)、(8)計算類別標(biāo)記向量Cl和類別標(biāo)記隸屬度向量Ml,進(jìn)而得出測試樣本t的類別。

      算法2WML-GkNN算法

      輸入:訓(xùn)練數(shù)據(jù)集Sk,近鄰集合大小k,測試數(shù)據(jù)t。

      輸出:測試數(shù)據(jù)t的類別標(biāo)記。

      1.對于每一個類別標(biāo)記,計算其先驗概率。

      2.計算測試數(shù)據(jù)t和訓(xùn)練數(shù)據(jù)集Sk的距離。

      3.根據(jù)設(shè)定的k和距離以及pro確定測試數(shù)據(jù)t的近鄰集合Q(x),|Q(x)|≥k。

      4.計算每一個類別標(biāo)記的后驗概率。

      5.對于每一個類別標(biāo)記重復(fù)步驟6、7。

      6.根據(jù)近鄰集合Q(x)和式(2)計算類別標(biāo)記權(quán)重w。

      7.對先驗概率用w加權(quán),然后用ML-kNN算法確定是否賦予標(biāo)記l。

      8.確保每個標(biāo)記都得到賦值,結(jié)束。

      4 數(shù)據(jù)集來源與預(yù)處理

      實驗采用臨床采集的經(jīng)絡(luò)電阻值數(shù)據(jù),共3 053例樣本。本文選取其中的原穴經(jīng)絡(luò)電阻數(shù)據(jù),針對睡眠情緒類疾病進(jìn)行分類研究。數(shù)據(jù)包含左右各12原穴、性別、身高、體重、年齡等28個特征。

      在多標(biāo)記分類研究方面,根據(jù)有效樣本數(shù)在已有的數(shù)據(jù)集中本文選擇心血管類、血脂病類、尿酸類3類疾病數(shù)據(jù)。心血管類疾病包含貧血、冠心病、竇性心動過緩、房顫、室性早搏、竇性心律不齊、高乳血癥1、慢性心力衰竭等8個小亞型疾??;血脂類疾病包含脂肪肝、血脂代謝紊亂、脂肪肝和血脂代謝紊亂、脂肪肝待排和血脂代謝紊亂、脂肪肝待排等6個小亞型疾??;尿酸類疾病包含高尿酸血癥。由于各個疾病在亞型數(shù)量上不一致,為了方便進(jìn)行多標(biāo)記研究,對疾病下的亞型進(jìn)行了歸并處理,使每種疾病的分類情況為:不患有此類疾病和患有此類疾病兩種類型,在數(shù)據(jù)中分別用0和1表示。用于多標(biāo)記學(xué)習(xí)分類研究的數(shù)據(jù)集中不同疾病分布情況如表1所示,數(shù)據(jù)的標(biāo)記分布情況如表2所示。

      Table 1 Multi-label data set for disease distribution表1 多標(biāo)記數(shù)據(jù)集疾病分布情況

      從表1中可以看出,不同疾病患?。栃裕┤藬?shù)和未患病(陰性)人數(shù)是不均衡的,陰性樣本個體遠(yuǎn)超過陽性樣本個體,且各個疾病的陰性樣本數(shù)量和陽性樣本數(shù)量是不同的。同時對患病情況進(jìn)行統(tǒng)計,結(jié)果為:3種病均未患1 310例,患一種疾病689例,患兩種疾病195例,患3種疾病20例。

      Table 2 Multi-label data set表2 多標(biāo)記數(shù)據(jù)集情況

      表2中,features表示特征數(shù),labels表示標(biāo)簽的個數(shù),cardinality表示每個樣本實例的平均標(biāo)記數(shù),density是cardinality與標(biāo)記總數(shù)的商值。

      5 多標(biāo)記分類性能評價

      多標(biāo)記學(xué)習(xí)框架中,每個樣本可能同時隸屬于多個類別標(biāo)記。因此與單標(biāo)記學(xué)習(xí)系統(tǒng)相比,多標(biāo)記學(xué)習(xí)系統(tǒng)的評價準(zhǔn)則要更加復(fù)雜。到目前為止,已提出了許多多標(biāo)記學(xué)習(xí)系統(tǒng)的性能評價準(zhǔn)則[13]。本文選取了5種常用的評價準(zhǔn)則,即Hamming Loss、One-Error、Ranking Loss、Coverage、Avg Precision 來評價多標(biāo)記學(xué)習(xí)系統(tǒng)的性能。假設(shè)T={(x1,y1),(x2,y2),…,(xp,yp)}為多標(biāo)記測試集,并根據(jù)預(yù)測函數(shù)fl(x),定義一個排序函數(shù)rankf(x,l)∈{1,2,…,L} ,如果fl(x)>fk(x),則rankf(x,l)<rankf(x,k)。具體定義如下。

      (1)Hamming Loss:該指標(biāo)用于評估樣本的真實標(biāo)記與系統(tǒng)預(yù)測所得標(biāo)記之間的誤差率。

      式(9)中,Δ代表集合h(xi)和Yi之間的對稱差分,即進(jìn)行布爾運算中的邏輯異或操作。在算法評價過程中,該指標(biāo)值越小,表示分類性能越好,當(dāng)hloss(h)值為0時,其性能最優(yōu)。

      (2)One-Error:該評價指標(biāo)用于考察在樣本的類別標(biāo)記排序序列中,排名最高的標(biāo)記不是樣本真實標(biāo)記的可能性,在單標(biāo)記學(xué)習(xí)中,演化成一般的分類錯誤率。one-error(f)越小,性能越好,當(dāng)one-error(f)值為0時,性能最優(yōu)。

      式(10)中,f(,)為與多標(biāo)記分類器對應(yīng)的實值函數(shù)。

      (3)Ranking Loss:計算實例的相關(guān)類標(biāo)排序錯誤的類標(biāo)對的數(shù)目。rloss(f)越小,性能越好,當(dāng)rloss(f)為0時,性能最優(yōu)。

      (4)Coverage:評估要在排好序的類標(biāo)集Y中查找多少步才能把實例xi的類標(biāo)都找到。coverage(f)越小,性能越好。

      (5)Avg Precision:該評價指標(biāo)考察了在樣本的類別標(biāo)記排序隊列中,隸屬度值大的標(biāo)記仍為其相關(guān)標(biāo)記的情況,即反映了預(yù)測類標(biāo)的平均精確度。avgprec(f)越大,性能越好,當(dāng)avgprec(f)為1時,性能最優(yōu)。

      6 實驗結(jié)果與分析

      實驗的主要目的是:測試在中醫(yī)臨床數(shù)據(jù)上運用WML-GkNN算法是否能夠提升少數(shù)類的分類精度以及優(yōu)化近鄰的選擇。相較于已有算法,主要觀察WML-GkNN算法是否能夠提升Hamming Loss、Avg Precision這兩個主要指標(biāo)。

      本文將改進(jìn)的算法WML-GkNN與ML-kNN、WML-kNN運用于已收集的中醫(yī)臨床數(shù)據(jù)中,除以上3種算法外,同時使用RAkEL、BP-MLL、BR這3種運用較多的多標(biāo)記分類算法進(jìn)行分類與比較。在實驗中WML-GkNN算法的pro采用人工設(shè)置的方法實現(xiàn),因為WML-GkNN算法近鄰的個數(shù)是根據(jù)pro以及樣本本身情況來確定,而在實驗中所設(shè)置的k為最小近鄰集大小,所以WML-GkNN算法的實驗結(jié)果并不一定是最優(yōu)的結(jié)果。

      分類器參數(shù)設(shè)置如下:

      (1)RAkEL的基分類器為J48,使用默認(rèn)的參數(shù)設(shè)置。RAkEL其余參數(shù)設(shè)置為:k值設(shè)為3,Size Of Subset=2,n=2L,L為標(biāo)記的數(shù)量。

      (2)ML-kNN中的k設(shè)為10,平滑參數(shù)設(shè)為1。

      (3)BP-MLL 中l(wèi)earningRate=0.05,epochs=100,hiddenUnits=0.2。

      (4)BR的基分類器為J48,其余使用默認(rèn)的參數(shù)。

      (5)WML-kNN中的k設(shè)為10,平滑參數(shù)設(shè)為1。

      (6)WML-GkNN中最小的k設(shè)為10,平滑參數(shù)設(shè)為1,pro設(shè)為1.05。

      所有實驗使用十折交叉驗證去評估多標(biāo)記分類相關(guān)性能評價,為了排除隨機(jī)性,每次實驗重復(fù)10次。RAkEL、ML-kNN、BP-MLL、BR、WML-kNN、WML-GkNN都是基于MULAN[14]實現(xiàn)的。在表3中,最優(yōu)指標(biāo)用粗體標(biāo)注。

      從表3中可以發(fā)現(xiàn),與ML-kNN算法相比,WML-kNN算法在Hamming Loss、Avg Precision、Coverage、One-Error上有一定程度的提高;與WML-kNN算法相比,WML-GkNN算法在Hamming Loss、Avg Precision、One-Error上又有一定程度的提升。在RAkEL、BP-MLL、BR、ML-kNN算法中,ML-kNN算法在Hamming Loss、Avg Precision、Coverage上優(yōu)于其他3種方法,總體性能較好。在Ranking Loss方面,BPMLL算法性能最優(yōu)。從表中可以發(fā)現(xiàn),WML-GkNN算法在總體性能上最優(yōu)。

      Table 3 Multi-label classification experiment results(Mean±dev)表3 多標(biāo)記分類實驗結(jié)果(平均值±標(biāo)準(zhǔn)差)

      前面分析過近鄰集k的取值大小可能會對相關(guān)的方法實驗產(chǎn)生影響,那么近鄰集k的取值大小會對ML-kNN、WML-kNN算法產(chǎn)生怎樣的影響呢,本文繼續(xù)用實驗來探討。由于所用樣本數(shù)量為2 214例,如果k取值的范圍較小,不能夠從整體上反映出相關(guān)指標(biāo)的變化趨勢,在此k取值為{1,2,3,5,10,15,20,25,30,35,40,50,60,70},以探討隨著k取值的增大相應(yīng)指標(biāo)的變化趨勢。

      從圖2中可以發(fā)現(xiàn),隨著k值的增大,Avg Precision呈現(xiàn)一個先增加后減小而后在局部范圍內(nèi)出現(xiàn)先增后減的振蕩變化,由于Avg Precision是越大越好,故隨著k值的增大Avg Precision總體結(jié)果出現(xiàn)一個下滑的趨勢。隨著k值的增大,Hamming Loss、Coverage、One-Error、Ranking Loss呈現(xiàn)在小范圍內(nèi)振蕩變化但總體上增加的趨勢,具體來講這4個指標(biāo)呈現(xiàn)出先減小后增加而后在局部范圍內(nèi)出現(xiàn)先減小后增加的振蕩變化;當(dāng)k大于50時,上升的趨勢就比較明顯。由于這4個指標(biāo)是越小越好,故隨著k值的增大,Hamming Loss、Coverage、One-Error、Ranking Loss結(jié)果出現(xiàn)下滑。

      從圖2中還可以看出,隨著k值的增大,相應(yīng)的評價指標(biāo)在總體上出現(xiàn)了一個下滑的趨勢。正如前面所提到的,樣本近鄰點個數(shù)太大會導(dǎo)致一些與樣本相似度不高的點被加入到樣本近鄰點集中,自然會影響實驗結(jié)果。在中醫(yī)臨床診斷中,不同病例的相似近鄰病例可能是不同的,如果k值取得太大,導(dǎo)致一些與病例樣本相似度不高的樣本被加入到樣本近鄰樣本集,很可能會對臨床數(shù)據(jù)的疾病分類結(jié)果造成影響。

      從圖3中同時可以發(fā)現(xiàn),pro偏大或者偏小會導(dǎo)致實驗評價指標(biāo)有所下降。還可以發(fā)現(xiàn)當(dāng)pro=1.25時,實驗效果最好。究其原因,pro設(shè)定是為了在構(gòu)建病例樣本近鄰樣本集時獲取與樣本相似度較高的病例樣本,當(dāng)pro取值較大時,會導(dǎo)致一些與病例樣本相似度不高的病例樣本被放入樣本的近鄰集中;而當(dāng)pro取值偏小時,會導(dǎo)致一些與樣本相似度較高的點未被放入樣本的近鄰集中,這些都會導(dǎo)致算法在數(shù)據(jù)集上進(jìn)行實驗的各項指標(biāo)下降。

      Fig.2 Change trend of results圖2 結(jié)果變化趨勢圖

      Fig.3 Change trend of results of WML-GkNN圖3 WML-GkNN結(jié)果變化趨勢圖

      為了進(jìn)一步比較算法性能,表4給出了在固定最小k值為30的情況下,pro從1.05到1.40各個取值下與ML-kNN、WML-kNN算法固定k值為30的情況下各個評價性能指標(biāo)。由于標(biāo)準(zhǔn)差較小,表4列出了主要值,未列出標(biāo)準(zhǔn)差,同時相關(guān)性能的最優(yōu)指標(biāo)加粗標(biāo)識。

      從表4中可以發(fā)現(xiàn),當(dāng)固定最小k值為30,pro從1.05到1.40情況下,WML-GkNN算法整體優(yōu)于ML-kNN、WML-kNN算法。除pro最初取值較小時Coverage、Ranking Loss略遜于ML-kNN、WML-kNN算法外,其余的pro取值下相關(guān)評價指標(biāo)均優(yōu)于ML-kNN、WML-kNN算法。在WML-GkNN算法中,不同的性能評價指標(biāo)在不同的pro取值下達(dá)到最優(yōu)。pro=1.25時,Hamming Loss、Avg Precision、One-Error取得最優(yōu);pro=1.35時,Coverage取得最優(yōu);pro=1.30時,Ranking Loss取得最優(yōu)。從以上對比可以發(fā)現(xiàn),WML-GkNN算法整體性能優(yōu)于ML-kNN、WML-kNN算法。

      在WML-GkNN算法中,通過粒計算盡可能地獲得病例的相似樣本,通過這些相似樣本更能反映樣本的實際情況,在此基礎(chǔ)上結(jié)合權(quán)重和ML-kNN,故WML-GkNN算法的分類性能優(yōu)于WML-kNN算法和ML-kNN算法。同時可以發(fā)現(xiàn),與改進(jìn)前的WML-kNN算法相比,WML-GkNN算法在Hamming Loss上平均提升11.2%,Avg Precision上平均提升5.3%,Coverage上平均提升2.1%,One-Error上平均提升5.1%,Ranking Loss上平均提升7.6%。就主要評價指標(biāo)Hamming Loss、Avg Precision而言,WML-GkNN算法性能有較好的提升。

      Table 4 Performance comparison of WML-GkNN and ML-kNN,WML-kNN表4 WML-GkNN與ML-kNN、WML-kNN性能比較

      為了進(jìn)一步驗證WML-GkNN算法的性能優(yōu)勢,在十折交叉驗證的實驗過程中,對WML-GkNN和其他比較算法的實驗結(jié)果進(jìn)行了配對t校驗(pairedt test)[15],檢驗P值如表5所示。

      Table 5 P value of t-test of WML-GkNN and other classification algorithms表5 WML-GkNN與其他分類算法配對t檢驗P值

      從表5中可以發(fā)現(xiàn),P值均小于0.05,此分析結(jié)果有統(tǒng)計學(xué)意義,說明WML-GkNN算法的優(yōu)勢在統(tǒng)計上是可信的,也進(jìn)一步驗證了WML-GkNN算法的性能優(yōu)勢。從已有的幾個算法來看,RAkEL算法的P值相對較小,WML-kNN算法的P值相對較大。這說明WML-GkNN算法相對RAkEL而言,具有更好的性能;而針對WML-kNN算法的P值相對較大,這與WML-GkNN算法是在WML-kNN算法基礎(chǔ)上進(jìn)行的改進(jìn)密切相關(guān)。

      7 結(jié)束語

      本文根據(jù)中醫(yī)臨床數(shù)據(jù)的實際情況,結(jié)合權(quán)重以及粒計算,提出了WML-kNN的改進(jìn)算法WMLGkNN,針對中醫(yī)臨床疾病數(shù)據(jù)多標(biāo)記學(xué)習(xí)和多標(biāo)記疾病分類進(jìn)行了研究。實驗表明,與改進(jìn)前的WML-kNN算法相比,WML-GkNN算法較好地提高了多標(biāo)記分類性能。但是結(jié)合中醫(yī)臨床數(shù)據(jù)構(gòu)建樣本的粒度空間,以及進(jìn)一步細(xì)化使用權(quán)重策略處理多標(biāo)記數(shù)據(jù)類別間不均衡問題還需進(jìn)一步研究。

      猜你喜歡
      類別病例分類
      分類算一算
      “病例”和“病歷”
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      一例犬中毒急診病例的診治
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      妊娠期甲亢合并胎兒甲狀腺腫大一例報告
      Meckel憩室并存異位胰腺和胃黏膜并出血一例
      波密县| 呼和浩特市| 舟山市| 和田县| 营口市| 哈密市| 苗栗市| 任丘市| 高尔夫| 辽阳市| 孝义市| 乌恰县| 奈曼旗| 黄石市| 于田县| 涪陵区| 奉节县| 简阳市| 咸丰县| 泸州市| 射洪县| 龙门县| 九江县| 苍南县| 邯郸市| 新和县| 淅川县| 无为县| 山西省| 旬邑县| 金乡县| 遂昌县| 宁城县| 普格县| 土默特左旗| 柳江县| 大名县| 淮南市| 渝北区| 南昌县| 奇台县|