• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      腫瘤參數(shù)屬性偏序結(jié)構(gòu)可視化實(shí)現(xiàn)乳腺癌診斷

      2018-09-03 06:13:12梁懷新宋佳霖鄭存芳洪文學(xué)
      關(guān)鍵詞:偏序?;?/a>特征選擇

      梁懷新 宋佳霖 鄭存芳,2 洪文學(xué)*

      1(燕山大學(xué)電氣工程學(xué)院,河北 秦皇島 066004) 2(燕山大學(xué)里仁學(xué)院,河北 秦皇島 066004)

      引言

      乳腺癌是最常見(jiàn)的女性惡性腫瘤之一,不僅是中國(guó)也是世界女性發(fā)病率最高的腫瘤[1-2]。在中國(guó),乳腺癌的發(fā)病率逐年增長(zhǎng),據(jù)全國(guó)腫瘤中心統(tǒng)計(jì),2015年乳腺癌的病例達(dá)到26.9萬(wàn)例,死亡病例高達(dá)7萬(wàn)例[3]。并且,隨著人們生活水平的提高,中國(guó)乳腺癌的發(fā)病率仍然呈逐年遞增的趨勢(shì),嚴(yán)重威脅著女性的身體健康。因其發(fā)病機(jī)理尚未完全清楚,采用科學(xué)的手段針對(duì)乳腺癌進(jìn)行早期診斷對(duì)于防治腫瘤具有十分重要的意義。目前,很多學(xué)者已對(duì)采用機(jī)器學(xué)習(xí)算法診斷乳腺癌進(jìn)行了相關(guān)研究,算法涉及神經(jīng)網(wǎng)絡(luò)[4-5]、支持向量機(jī)[6]、決策樹(shù)算法[7]、免疫分類算法[8]等。

      很多傳統(tǒng)的機(jī)器學(xué)習(xí)算法并不具備增量學(xué)習(xí)能力,隨著數(shù)據(jù)量的增大,一次性獲得知識(shí)的完備模式是很困難的,根據(jù)人類漸進(jìn)式認(rèn)知原理,學(xué)習(xí)知識(shí)是一個(gè)循序漸進(jìn)的過(guò)程。因此,在機(jī)器學(xué)習(xí)中引入增量學(xué)習(xí)的思想尤為重要,目前增量學(xué)習(xí)的機(jī)器學(xué)習(xí)算法涉及神經(jīng)網(wǎng)絡(luò)[9]、概念格的構(gòu)建[10]、隨機(jī)森林[11]、支持向量機(jī)[12]、多模態(tài)增量學(xué)習(xí)[13]等。增量學(xué)習(xí)的出現(xiàn)使得動(dòng)態(tài)自學(xué)習(xí)成為可能,有助于在大數(shù)據(jù)背景下快速挖掘有價(jià)值的信息獲得完備模式。如今,機(jī)器學(xué)習(xí)方法是否具有增量學(xué)習(xí),已經(jīng)成為衡量學(xué)習(xí)方法好壞的一項(xiàng)重要指標(biāo)。

      Lasso(least absolute shrinkage and selected operator)算法[14]是一種新的高維特征選擇正則化方法,于20世紀(jì)末被提出,可實(shí)現(xiàn)特征因子變量精簡(jiǎn)的效果。2002年,Efron提出最小角回歸算法(least angle regression,LARS),使得Lasso的計(jì)算效率大大提高。Lasso算法可以方便地處理連續(xù)、離散、二值數(shù)據(jù),具有較高的特征選擇能力。目前,涉及Lasso與乳腺癌的相關(guān)融合研究[15-16]還不是很多。本研究結(jié)合增量學(xué)習(xí)和Lasso特征篩選融合,增量學(xué)習(xí)中的?;^(guò)程必然導(dǎo)致特征維數(shù)的增多,結(jié)合Lasso算法,可在保證分類準(zhǔn)確率的情況下降低維度,實(shí)現(xiàn)動(dòng)態(tài)的數(shù)據(jù)挖掘過(guò)程。

      1982年,德國(guó)Wille教授首次提出形式概念分析(formal concept analysis,F(xiàn)CA)理論[17],它可以有效反映出概念間的泛化與例化關(guān)系。概念格是一種形式概念分析理論的數(shù)學(xué)邏輯思維理論,是形式概念分析理論的數(shù)學(xué)化的可視化描述。但是,當(dāng)數(shù)據(jù)量不斷增大時(shí),會(huì)存在連線交叉、層次不清的問(wèn)題,不利于可視化數(shù)據(jù)挖掘。洪文學(xué)教授提出了一種可表示事物普遍性和特異性聯(lián)系的可視化工具——屬性偏序結(jié)構(gòu)圖,具有頻數(shù)統(tǒng)計(jì)、關(guān)聯(lián)分析等集成功能,已經(jīng)在很多領(lǐng)域得到應(yīng)用[18-22]。

      目前,屬性偏序結(jié)構(gòu)圖的生成是基于批量式生成方法,無(wú)法動(dòng)態(tài)根據(jù)數(shù)據(jù)量的增大進(jìn)行調(diào)整?;诖耍狙芯刻岢鲆环N基于增量學(xué)習(xí)和Lasso特征選擇的多維數(shù)據(jù)規(guī)則發(fā)現(xiàn)的可視化方法,針對(duì)?;髷?shù)據(jù)維數(shù)變多的情況,采用Lasso方法進(jìn)行二次特征篩選來(lái)實(shí)現(xiàn)降維,以降低規(guī)則復(fù)雜度;之后提出新的基于基尼指數(shù)和覆蓋對(duì)象的行列優(yōu)化方法,對(duì)形式背景進(jìn)行優(yōu)化,生成屬性偏序結(jié)構(gòu)圖,進(jìn)而進(jìn)行規(guī)則提取。該方法實(shí)現(xiàn)了將規(guī)則提取可視化,取得了96.52%的診斷準(zhǔn)確率,高于主流分類器水平,豐富了數(shù)據(jù)挖掘可視化方法,有助于降低與專家名醫(yī)溝通的醫(yī)學(xué)門(mén)檻。

      1 材料和方法

      1.1 材料

      實(shí)驗(yàn)數(shù)據(jù)選自UCI標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的Wisconsin大學(xué)Madison醫(yī)學(xué)院乳腺癌數(shù)據(jù)集:Breast Cancer Wisconsin Data Set (Original),http://archive.ics.uci.edu/ml/datasets.html。其中,樣本總數(shù)為699個(gè),包含條件屬性8個(gè)、決策屬性1個(gè),屬性說(shuō)明見(jiàn)表1。為了處理方便,本研究將缺失的16個(gè)樣本剔除,最終剩余完整樣本總數(shù)為683個(gè)。

      1.2 方法

      為了詳細(xì)說(shuō)明采用本算法對(duì)乳腺癌數(shù)據(jù)進(jìn)行模式識(shí)別的過(guò)程,對(duì)一些必要概念進(jìn)行定義。

      1.2.1相關(guān)定義

      定義1:形式背景。形式概念分析中,形式背景可以由K={P,M,G}三元組組成。其中,P表示對(duì)象集合,M表示屬性集合,G?P×M表示P和M的二元關(guān)系組成的集合。(p,m)∈G或pGm表示對(duì)象p∈P具有屬性m。此外,形式背景可用矩陣表示(見(jiàn)表2),每一行代表一個(gè)對(duì)象,每一列代表其具有某一屬性。行列交叉處若標(biāo)注1,則表示此對(duì)象具有該屬性,若標(biāo)注0表示不具有該屬性。

      表1 乳腺癌數(shù)據(jù)集屬性Tab.1 The attributes of the breast cancer data

      表2 形式背景Tab.2 The formal context

      對(duì)象子集X?P,屬性子集Y?M,則有

      f(X)={y∈M|?x∈X,xGy}

      (1)

      g(Y)={x∈P|?y∈Y,xGy}

      (2)

      式中,f(X)表示X中所有對(duì)象具有的屬性集合,g(Y)表示Y中所有屬性具有的對(duì)象集合。

      定義2:決策系統(tǒng)、決策信息表。用一個(gè)四元組S=表示一信息系統(tǒng),U是對(duì)象集合,A=C∪D是屬性集合,其中C是條件屬性集合,D表示決策屬性集合。V=∪Va,Va表示屬性a的值域。f:U×A→V表示信息函數(shù),?a∈A,x∈U,有f(x,a)∈Va。用五元組(U,C,A,D,f)表示決策信息表,見(jiàn)表3。

      表3 決策信息表Tab.3 The decision-making information table

      在決策信息表中,若某兩個(gè)對(duì)象彼此具有相同的條件屬性和決策屬性,則二者具有相同模式,將相同對(duì)象的數(shù)目稱作模式的度,例如在表2中,對(duì)象x1與對(duì)象x5各屬性完全相同,則保留x1,模式度為2。

      定義3:決策模式信息表。稱六元組(U,C,I′,D,K′,Du)為決策模式信息表,與信息表相比,I′表示U與C之間的映射關(guān)系,K′表示U與D之間的映射關(guān)系,Du表示模式的度。將表3表示為決策模式信息表,見(jiàn)表4。

      表4 決策模式信息表Tab.4 The decision-making information and pattern table

      定義4:等價(jià)關(guān)系、等價(jià)類。在決策系統(tǒng)S=中,存在屬性子集B?A,決定了等價(jià)關(guān)系

      IND(B)=

      {(x,y)∈U×U|?a∈B,f(x,a)=f(y,a)}

      (3)

      并得到了U的一個(gè)劃分,可用U/IND(B)表示。其中,等價(jià)關(guān)系之間的交也是一種等價(jià)關(guān)系,表示為

      [x]IND(B)=∩[x]B

      (4)

      其中

      [x]B={y∈U|?a∈B,f(x,a)=f(y,a)}

      (5)

      稱為等價(jià)類。

      定義5:集合覆蓋。在學(xué)習(xí)新的模式時(shí),根據(jù)不同的覆蓋關(guān)系,將進(jìn)行不同操作。為便于后面的討論,在此定義一些關(guān)于覆蓋的基本概念,關(guān)于覆蓋理論的具體研究可參照文獻(xiàn)[23]。

      設(shè)U是論域,C是U的一組非空子集族,且∪C=U,則稱C是U的全覆蓋,或C是U的一個(gè)覆蓋。設(shè)U1是U的非空真子集族,C1是U1的覆蓋,則稱C1是U的子域覆蓋。設(shè)非空子集族C={K1,K2,…,Kn}(n>1),是論域U上的一個(gè)覆蓋,若Ki∩Kj=Ф(i≠j),則C被稱為論域U的一個(gè)劃分,也被稱為論域U上的互斥覆蓋。特別地,當(dāng)|C|=2時(shí),互斥覆蓋也稱為矛盾覆蓋。設(shè)Ci、Cj是論域U上的子域覆蓋,若(∪Ci)∩(∪Cj)≠ Ф,且(∪Ci)?(∪Cj) (i≠j),則Ci、Cj是U上的互不包含覆蓋。設(shè)非空子集族Ci、Cj是論域U的子域覆蓋,若∪Ci?∪Cj,則稱在論域U上Ci是Cj的伴生覆蓋。

      1.2.2增量學(xué)習(xí)

      增量學(xué)習(xí)的基本思想是將新數(shù)據(jù)的對(duì)象和屬性求交集,根據(jù)不同的覆蓋結(jié)果關(guān)系做出不同的操作,其中涉及模式的增加、刪除、更新以及相應(yīng)庫(kù)數(shù)據(jù)的修改等。這里定義具有相同條件屬性和決策屬性的集合為一個(gè)對(duì)象的模式。

      置初始的形式背景K={P,M,G}為空,即論域?yàn)椐?,?dāng)存在新增對(duì)象X*時(shí),設(shè)存在新增概念為(X*,f(X*)),其中f(X*)表示對(duì)象X*的條件屬性集合。添加f(X*)到屬性庫(kù)L,對(duì)象X*保存到對(duì)象庫(kù)Q,然后生成形式背景K*={X*,f(X*),G}。

      大規(guī)模的增量學(xué)習(xí)可以認(rèn)為是很多單次增量學(xué)習(xí)的疊加,這里以每次學(xué)習(xí)一個(gè)概念為例進(jìn)行說(shuō)明。原始形式背景K={P,M,G},設(shè)多次學(xué)習(xí)后的原有對(duì)象集合為P,屬性庫(kù)屬性集合為L(zhǎng),假設(shè)存在新增的概念(X*,f(X*)),集合f(X*)與屬性庫(kù)集合L做覆蓋運(yùn)算f(X*)∩L,根據(jù)覆蓋結(jié)果進(jìn)行下一步操作。

      若屬性集合存在新增屬性,則f(X*)與L是互斥覆蓋關(guān)系,將新增屬性追加到屬性庫(kù)L,形成新的屬性庫(kù)L*=(L∪f(wàn)add(X*)),其中fadd(X*)表示屬性集合f(X*)中新增的屬性。更新形式背景K*={P∪X*,M∪f(wàn)add(X*),G}。

      若不存在新增屬性,那么新增屬性集合與原集合之間可能存在子域覆蓋關(guān)系、全覆蓋關(guān)系、互不包含覆蓋關(guān)系、伴生覆蓋關(guān)系。根據(jù)不同覆蓋關(guān)系對(duì)屬性庫(kù)做相關(guān)操作,對(duì)于屬性庫(kù)L模更新有以下幾種情況:

      1)若為全覆蓋關(guān)系,則f(X*)=L,屬性庫(kù)不做新增;

      2)若為子域覆蓋關(guān)系,f(X*)?L,保持屬性庫(kù)L不變;

      3)若為互不包含覆蓋關(guān)系,更新新增屬性L∪f(wàn)add(X*);

      4)若為伴生覆蓋關(guān)系,f(X*)?L,同樣做更新L∪f(wàn)add(X*),保留原屬性集合不變。

      當(dāng)概念的外延很多時(shí),對(duì)應(yīng)的屬性就很容易出現(xiàn)重復(fù)的模式,即為既存模式庫(kù)中模式的全覆蓋關(guān)系。因此,為了得到約簡(jiǎn)的模式,提高生成形式背景的時(shí)間效率,當(dāng)有新的概念(X*,f(X*))加入形成二值背景F時(shí),進(jìn)行模式檢測(cè),將相同模式對(duì)象合并,刪除新增模式,并計(jì)算合并增加屬性度到當(dāng)前模式。

      1.2.3Lasso

      特征選擇對(duì)于建模具有重要的作用,在起初的研究中往往選擇很多特征,以盡可能詳盡地描述和表征對(duì)象。然而,一些高維的特征集合對(duì)模式識(shí)別、規(guī)則提取等數(shù)據(jù)挖掘過(guò)程有時(shí)并沒(méi)有體現(xiàn)理想的優(yōu)勢(shì),反而一些自變量因其具有強(qiáng)解釋力、高價(jià)值,常常可以來(lái)提高模型的解釋性和預(yù)測(cè)精度。因此,選擇適合模型的特征尤為重要。

      Lasso的提出有效解決了特征選擇問(wèn)題,因其具有較好的特征選擇能力被廣泛應(yīng)用[24-25],對(duì)特征數(shù)大于實(shí)例數(shù)的模型效果尤為明顯。該算法通過(guò)利用自變量系數(shù)絕對(duì)值之和構(gòu)造懲罰函數(shù),通過(guò)使其小于特定值來(lái)達(dá)到使某些變量系數(shù)壓縮為零的目的,進(jìn)而得到非零系數(shù)對(duì)應(yīng)的特征為被選的屬性變量,實(shí)現(xiàn)了指標(biāo)集合的降維目的,有利于實(shí)現(xiàn)集合的精簡(jiǎn)。Lasso主要是通過(guò)一范數(shù)懲罰回歸來(lái)求得最優(yōu)解。

      設(shè)存在數(shù)據(jù)(X,Y),其中X=(x1,x2,…,xj,…,xp)T,p表示屬性特征的數(shù)量,總樣本數(shù)為N,xj=(x1j,x2j,…,xnj)表示預(yù)測(cè)變量特征,Y=(y1,y2,…,yi,…,yn)T是回歸量,也可以是不同樣本類別標(biāo)簽。首先,將xj標(biāo)準(zhǔn)化、yi中心化,有

      Lasso最小化殘差平方和如下:

      (8)

      (9)

      式中,yi是響應(yīng)變量,xij=(xi1,xi2,…,xin)是觀察向量,βj為第j個(gè)變量的回歸系數(shù)。

      s>0,用于控制系數(shù)壓縮為零的數(shù)量。當(dāng)s取較小值時(shí),與響應(yīng)變量關(guān)聯(lián)小的預(yù)測(cè)變量所對(duì)應(yīng)的系數(shù)將會(huì)被壓縮至零;而當(dāng)s很大時(shí),回歸系數(shù)一范數(shù)失去限定作用,無(wú)法起到特征選擇的作用。

      最小角回歸算法(LAPS)是解決Lasso問(wèn)題的一種經(jīng)典算快速高效方法[26],LARS方法可有效得到Lasso中方程的最優(yōu)解,使殘差逐漸減小,只需n步(n為變量數(shù))就可以得到尋找一范數(shù)正則化路徑。LARS算法每一次選擇回歸殘差作為被選特征的計(jì)算指標(biāo),使當(dāng)前殘差與預(yù)測(cè)變量的關(guān)聯(lián)系數(shù)與上一被選特征相同。其中,回歸殘差包括響應(yīng)變量和被選特征的綜合信息。LARS算法基本流程如下:

      Input: 原始數(shù)據(jù),殘差Y,變量集X。Output: 回歸路徑圖。

      1)X,Y中心標(biāo)準(zhǔn)化;

      2)找到當(dāng)前殘差Y與X相關(guān)系數(shù)(記做Y^X)最大的變量X1;

      3)在solution path上尋找另一個(gè)變量X2,使得Y2^X2=Y1^X1,solution path中加入X2并調(diào)整為X1和X2角分線方向;

      4)重復(fù)上述方法直到所有變量加入。

      根據(jù)表2生成系數(shù)回歸圖,見(jiàn)圖1。從中可以得到每一個(gè)變量的回歸路徑,縱軸是回歸系數(shù)的估計(jì)值,右側(cè)軸上的數(shù)字對(duì)應(yīng)著變量下標(biāo),可以看出特征選擇順序?yàn)閄3>X1>X2。

      圖1 Lasso回歸系數(shù)估計(jì) Fig.1 The Lasso regression coefficient estimation diagram

      1.2.4屬性偏序結(jié)構(gòu)圖生成

      屬性偏序結(jié)構(gòu)是基于屬性偏序的性質(zhì)和數(shù)學(xué)意義生成的層次結(jié)構(gòu),由經(jīng)過(guò)概念格中選定頂點(diǎn)的完全子格構(gòu)成[27]。屬性偏序結(jié)構(gòu)是一個(gè)有層次的倒樹(shù)形結(jié)構(gòu),其數(shù)據(jù)內(nèi)部關(guān)聯(lián)及意義清晰,可視化效果相比概念格更好。屬性偏序結(jié)構(gòu)圖是基于二值形式背景生成的,具有自動(dòng)聚類的效果,而原始數(shù)據(jù)往往是定量的連續(xù)數(shù)據(jù),因此需要將連續(xù)數(shù)據(jù)進(jìn)行?;?、行列優(yōu)化等必要處理。本研究提出了基于有監(jiān)督的連續(xù)數(shù)據(jù)?;椒?,同時(shí)提出基于基尼(Gini)指數(shù)和屬性覆蓋對(duì)象綜合指標(biāo)作為行列優(yōu)化中重要屬性選擇的指標(biāo),引入基于類別純度表征的基尼指數(shù),以突出類別信息。

      假設(shè)集合S中包含s個(gè)數(shù)據(jù),m個(gè)不同類別,將m個(gè)不同類定義為Ci(i=1,2,…,m)。根據(jù)屬性值將集合S劃分為m個(gè)子集Si(i=1,2,…,m),假設(shè)Si集合屬于類別Ci,集合Si包含的樣本數(shù)目為si,則集合S的Gini指數(shù)為

      (10)

      式中,pi表示的是某一樣本屬于類別Ci的概率值。

      在選擇分裂屬性時(shí),假設(shè)根據(jù)某個(gè)屬性將集合S劃分為N個(gè)子集Sj(j=1,2,…,N),則分裂后的Ginisplit指標(biāo)表示為

      (11)

      式中,sj為屬于某一個(gè)類別的樣本數(shù),s為所有類別數(shù)目。

      本研究粒化算法偽代碼如下:

      Input:原始數(shù)據(jù)(n行m列)

      Output:?;髷?shù)據(jù)

      1 for Column=1 to m

      2 計(jì)算每一列數(shù)據(jù)的潛在分割點(diǎn)P;

      3 計(jì)算每個(gè)分割點(diǎn)的Ginisplit,記錄最小的Ginisplit對(duì)應(yīng)位置wi;

      4 從Wi+1開(kāi)始至n行進(jìn)行純度檢測(cè),若類別一致,停止計(jì)算,否則返回2、3步;

      5 End for

      至此根據(jù)?;?guī)則生成的形式背景較為稀疏,通過(guò)行列變換可將數(shù)據(jù)內(nèi)部結(jié)構(gòu)和普遍性以及特異性展現(xiàn)得更為明顯。本研究提出新的行列變換指標(biāo)CGAO(combination of Gini and objects),即將表征類別純度的Gini指數(shù)和覆蓋對(duì)象數(shù)目融合進(jìn)行特征提取和特征變換,有

      (12)

      式中,mi∈M(i=1,2,…,n)表示某個(gè)屬性。

      Input:形式背景K,行數(shù)m,列數(shù)n

      Output:優(yōu)化后形式背景

      1 Row=1,Column=1;

      2 For Column=1 to n;

      3 得到可能的子形式背景K1與K2

      4 If K1與K2沒(méi)有交集

      5 對(duì)當(dāng)前形式背景進(jìn)行優(yōu)化

      6 Else

      7 Row++;

      8 End if

      9 If Row>=m

      10 Column++;Row++;

      11 Else

      12 Continue;

      13 End if

      14 End for

      1.2.5實(shí)驗(yàn)過(guò)程

      為了驗(yàn)證規(guī)則提取方法的客觀性,首先將本實(shí)驗(yàn)數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集(80%數(shù)據(jù))和測(cè)試集(20%數(shù)據(jù)),對(duì)比試驗(yàn)過(guò)程,保持訓(xùn)練集和測(cè)試集不變。其中,訓(xùn)練集中包含樣本共計(jì)546例,良性360例,惡性186例。以下實(shí)驗(yàn)過(guò)程均在訓(xùn)練集上進(jìn)行。

      步驟1:數(shù)據(jù)標(biāo)準(zhǔn)化。為消除量綱以及數(shù)據(jù)自身變異對(duì)實(shí)驗(yàn)的影響,先將每一列屬性值標(biāo)準(zhǔn)化,使其平均值為0,標(biāo)準(zhǔn)差為1。

      步驟2:特征選擇。本研究采用R語(yǔ)言Lasso程序包內(nèi)置算法,對(duì)特征屬性進(jìn)行一次篩選,根據(jù)前面介紹的Lasso算法,將全部數(shù)據(jù)導(dǎo)入,生成系數(shù)回歸路徑,見(jiàn)圖2。可以看出,經(jīng)過(guò)Lasso被選擇出的屬性重要順序?yàn)閄6>X3>X2>X1>X7>X8>X4>X5>X9。為了清晰地說(shuō)明診斷過(guò)程,將屬性X6、X2、X3、X1優(yōu)先選擇出來(lái)。

      圖2 乳腺癌診斷Lasso回歸系數(shù)估計(jì)Fig.2 The Lasso regression coefficient estimation

      步驟3:數(shù)據(jù)?;?。采用本文第4.1節(jié)中的粒化方法,對(duì)每列屬性值計(jì)算Gini指數(shù),得到所有分割點(diǎn),實(shí)現(xiàn)數(shù)據(jù)二值化,進(jìn)而生成形式背景。經(jīng)過(guò)計(jì)算,得到的分割點(diǎn)情況如表5所示。

      將分割區(qū)間按照字母和數(shù)字組合方式加以轉(zhuǎn)換,每個(gè)屬性為一個(gè)字母表示,區(qū)間段的索引值用數(shù)組加以組合,對(duì)象可用數(shù)字代表,如屬性X3的區(qū)間表示為C1-(0,0.278],C2-(0.278,0.389],C3-(0.389,0.833],C4-(0.833,1],以此類推。

      表5 特征X1、X2、X3、X6樣本分割點(diǎn)Tab.5 The split points of the attributes X1, X2, X3, X6

      步驟4:增量學(xué)習(xí)。根據(jù)本文第1.2.2節(jié)給出的增量學(xué)習(xí)具體步驟進(jìn)行數(shù)據(jù)的增量學(xué)習(xí),而后采用基于CGAO指標(biāo)進(jìn)行屬性特征選擇,從而實(shí)現(xiàn)進(jìn)行行列變換,生成的部分形式背景見(jiàn)表6。

      表6 部分優(yōu)化形式背景Tab.6 The partial optimized formal context

      步驟5:二次特征篩選。經(jīng)過(guò)?;驮隽繉W(xué)習(xí)后,分割點(diǎn)將數(shù)據(jù)劃分到不同的區(qū)間,特征維數(shù)由初始的3維變?yōu)?7維,提升了將近6倍,若生成屬性偏序結(jié)構(gòu)圖會(huì)出現(xiàn)分支、層數(shù)較多的情況,不利于進(jìn)行規(guī)則提取可視化和約簡(jiǎn)。因此,采用Lasso算法進(jìn)行二次特征篩選,既有利于可視化規(guī)則發(fā)現(xiàn),也保持了細(xì)化特征區(qū)間段的優(yōu)點(diǎn)。經(jīng)過(guò)Lasso算法篩選的系數(shù)回歸路徑如圖3所示??梢?jiàn),按照特征篩選順序,優(yōu)先被選擇的特征為特征2、特征3、特征6,即屬性B1、C1、D1??梢?jiàn),基于Lasso算法的二次篩選起到了很好的降維作用。

      圖3 二次Lasso回歸系數(shù)估計(jì)Fig.3 The second Lasso regression coefficient estimation

      步驟6:生成決策模式信息表。經(jīng)過(guò)對(duì)粒化后的數(shù)據(jù)進(jìn)行特征篩選后,會(huì)產(chǎn)生大量的相同模式,形成不一致決策信息,將不一致決策按照模式度小的服從模式度大的規(guī)則進(jìn)行合并。計(jì)算每一個(gè)模式的模式度,并將相同模式進(jìn)行約簡(jiǎn)合并,以形成決策規(guī)則,生成決策模式信息表,見(jiàn)表7。

      表7 乳腺癌數(shù)據(jù)決策模式信息Tab.7 The decision-making information and pattern table of the breast cancer data

      圖4 乳腺癌診斷屬性偏序結(jié)構(gòu)圖Fig.4 The attribute partial order structure diagram of the breast cancer diagnosis

      步驟7:生成屬性偏序結(jié)構(gòu)圖。根據(jù)決策模式信息表的前4列數(shù)據(jù)構(gòu)成形式背景,在進(jìn)行基于CGAO綜合指標(biāo)的行列優(yōu)化形式背景后,生成屬性偏序結(jié)構(gòu)圖,如圖4所示。共分為條件屬性層和決策屬性層兩個(gè)部分,a1~a3表示屬性特征,即歸一化后的不同區(qū)間段,o1~o8表示對(duì)象,其中o1~o3、o5屬于良性腫瘤類別,o4、o6~o8屬于惡性腫瘤類別。屬性偏序結(jié)構(gòu)圖的條件屬性層分為4小層,其中越靠上層越具有普遍性,是事物共性的表達(dá)。

      步驟8:規(guī)則提取。本研究的規(guī)則提取建立在將屬性值歸一化的基礎(chǔ)上,每一條支路都是一條完備的規(guī)則,如支路1,當(dāng)某對(duì)象具有屬性a1、a2、a3時(shí),即當(dāng)細(xì)胞大小均勻性在 (0,0.167]內(nèi),細(xì)胞形狀均勻性在 (0,0.278]內(nèi),裸核在 (0,0.167]區(qū)間內(nèi)的條件同時(shí)滿足時(shí),判定該對(duì)象為良性。若對(duì)象不具有某個(gè)屬性,則用x表示該屬性為空。根據(jù)屬性偏序圖可得出診斷規(guī)則,轉(zhuǎn)換為IF-THEN形式表示如下:

      1)IF(X2(細(xì)胞大小均勻性)∈(0,0.167])AND(X3(細(xì)胞形狀均勻性)∈(0,0.278])THEN 診斷=良性;

      2)IF(X2(細(xì)胞大小均勻性)∈(0,0.167])AND(X3(細(xì)胞形狀均勻性)=x)AND(X6(裸核)∈(0,0.167])THEN 診斷=良性;

      3)IF(X2(細(xì)胞大小均勻性)∈(0,0.167])AND(X3(細(xì)胞形狀均勻性)=x)AND(X6(裸核)=x)THEN 診斷=惡性;

      4)IF(X2(細(xì)胞大小均勻性)=x)AND(X3(細(xì)胞形狀均勻性)∈(0,0.278])AND(X6(裸核)∈(0,0.167])THEN 診斷=良性;

      5)IF(X2(細(xì)胞大小均勻性)=x)AND(X3(細(xì)胞形狀均勻性)∈ (0,0.278])AND(X6(裸核)=x)THEN 診斷=惡性;

      6)IF(X2(細(xì)胞大小均勻性)=x)AND(X3(細(xì)胞形狀均勻性)=x)AND(X6(裸核)∈(0,0.167])THEN 診斷=惡性;

      7)IF(X2(細(xì)胞大小均勻性)=x)AND(X3(細(xì)胞形狀均勻性)=x)AND(X6(裸核)=x)THEN 診斷=惡性。

      2 結(jié)果

      2.1 基本結(jié)果驗(yàn)證

      采用上述診斷規(guī)則,對(duì)隨機(jī)抽取的20%測(cè)試集數(shù)據(jù)進(jìn)行測(cè)試,結(jié)果見(jiàn)表8。

      表8 乳腺癌診斷準(zhǔn)確率Tab.8 The precision of the breast cancer diagnosis

      由表8可知,采用80%數(shù)據(jù)集提取出的7條規(guī)則進(jìn)行模式識(shí)別,經(jīng)過(guò)10次測(cè)試,得到平均準(zhǔn)確率為96.52%,其中判斷正確132例、錯(cuò)誤5例,在一定程度上說(shuō)明了本算法的可行性。

      2.2 與其他分類器比較結(jié)果

      為了對(duì)比本算法的準(zhǔn)確率和客觀性,將數(shù)據(jù)集在其他4個(gè)分類器進(jìn)行測(cè)試,其中包括隨機(jī)森林、支持向量機(jī)、Adaboost、KNN分類器(K=1,3),實(shí)驗(yàn)數(shù)據(jù)均為經(jīng)過(guò)本研究?;⑿问奖尘皟?yōu)化后的乳腺癌數(shù)據(jù),準(zhǔn)確率比較結(jié)果見(jiàn)表9。

      表9 與其他分類器比較結(jié)果Tab.9 The comparison of the precision with other classifiers

      經(jīng)過(guò)和其他5個(gè)分類器進(jìn)行比較得出:基于本研究Lasso二次篩選出的3個(gè)特征的基礎(chǔ)上,高于主流分類器的分類水平,準(zhǔn)確率可達(dá)96.52%,高于Adaboost、1NN、3NN、以及隨機(jī)森林和SVM分類器。

      2.3 兩級(jí)Lasso特征篩選必要性驗(yàn)證結(jié)果

      在兩次Lasso篩選過(guò)程中,首先在9維中選擇4維進(jìn)行增量學(xué)習(xí),此后從17維增量形式背景中選出前3維特征進(jìn)行基于特征的規(guī)則提取。為了說(shuō)明方法選擇的準(zhǔn)確性和有效性,設(shè)計(jì)了實(shí)驗(yàn)進(jìn)行驗(yàn)證:按照屬性特征的相關(guān)性大小和系統(tǒng)推薦順序,在對(duì)一次和二次Lasso篩選時(shí),重要的屬性特征分別篩選出來(lái)進(jìn)行規(guī)則提取,設(shè)計(jì)分類器,此過(guò)程保持訓(xùn)練集合測(cè)試集不變,重復(fù)相同的乳腺癌數(shù)據(jù)的增量診斷過(guò)程,從而得到準(zhǔn)確率比較,見(jiàn)表10。

      表10 Lasso特征選擇數(shù)目與準(zhǔn)確率比較Tab.10 The comparison of the precision with the numbers of the selected Lasso attributes

      由此可知,采用本研究的Lasso特征選擇數(shù)目組合方式進(jìn)行乳腺癌數(shù)據(jù)診斷的準(zhǔn)確率最高,且說(shuō)明了在選定一次Lasso特征數(shù)的情況下,并不是維數(shù)越高分類效果越好,因此尋求最佳的特征數(shù)目組合尤為主要。

      2.4 增量模式學(xué)習(xí)模式完備驗(yàn)證結(jié)果

      為了更具體地說(shuō)明本研究結(jié)合增量學(xué)習(xí)算法的可行性,將乳腺癌數(shù)據(jù)集合按比例分割來(lái)完成增量學(xué)習(xí)過(guò)程,采用順序增量學(xué)習(xí)的方法來(lái)逐條學(xué)習(xí)數(shù)據(jù),采用分類最優(yōu)的Lasso特征篩選數(shù)目組合方式,對(duì)通過(guò)按比例增量學(xué)習(xí)后的數(shù)據(jù)進(jìn)行規(guī)則提取,生成屬性偏序結(jié)構(gòu)圖,以研究與分類準(zhǔn)確率的關(guān)系,見(jiàn)表11。為方便進(jìn)行說(shuō)明,僅展示基于增量學(xué)習(xí)數(shù)據(jù)比例為20%、30%、50%、80%(依次對(duì)應(yīng)圖5中的(a)~(d))的屬性偏序結(jié)構(gòu)圖。

      表11 順序?qū)W習(xí)增量比例與分類準(zhǔn)確率比較Tab.11 The comparison of the precision with different proportions of the incremental learning data in order

      圖5 不同順序增量學(xué)習(xí)比例數(shù)據(jù)屬性偏序結(jié)構(gòu)圖。(a)20%;(b)30%;(c)50%;(d)80%Fig.5 The attribute partial order structure diagrams with different proportions of the incremental learning data in order.(a)20%; (b)30%; (c)50%; (d)80%

      由表11可知,隨著數(shù)據(jù)增量學(xué)習(xí)比例逐漸提升,本方法對(duì)乳腺癌數(shù)據(jù)分類準(zhǔn)確率逐步提升,當(dāng)增量學(xué)習(xí)數(shù)據(jù)量達(dá)到20%時(shí),分類準(zhǔn)確率已經(jīng)接近支持向量機(jī)(95%)分類水平,超過(guò)隨機(jī)森林分類器水平(94.25%)。結(jié)合圖5中的(a)~(d)可知,當(dāng)增量學(xué)習(xí)數(shù)據(jù)量達(dá)到30%時(shí),診斷規(guī)則已經(jīng)提取完備。增量學(xué)習(xí)的引入可以更加清晰地得到規(guī)則模式完備的數(shù)據(jù)量臨界,有助于在滿足分類正確率的前提下采用更精簡(jiǎn)的數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘,提高數(shù)據(jù)集的使用效率。

      3 討論

      3.1 可行性分析

      本方法實(shí)現(xiàn)了乳腺癌數(shù)據(jù)的診斷規(guī)則提取和可視化,其中增量學(xué)習(xí)思想的引入使得原始屬性偏序結(jié)構(gòu)圖的批量式成圖方法具有動(dòng)態(tài)學(xué)習(xí)的能力;同時(shí),由于兩級(jí)Lasso特征篩選對(duì)高價(jià)值特征數(shù)目的控制,實(shí)現(xiàn)了降維,所以本方法可應(yīng)對(duì)較大數(shù)據(jù)集的模式學(xué)習(xí)過(guò)程,保證較好的規(guī)則可視化效果。通過(guò)對(duì)原始數(shù)據(jù)的粒化、增量學(xué)習(xí)、特征篩選、模式約簡(jiǎn)等過(guò)程訓(xùn)練,得到最簡(jiǎn)的模式識(shí)別準(zhǔn)則,以實(shí)現(xiàn)測(cè)試數(shù)據(jù)的準(zhǔn)確性評(píng)判。直觀的規(guī)則可視化對(duì)于乳腺癌的診斷降低了復(fù)雜度,提高了規(guī)則的可讀性。經(jīng)過(guò)屬性偏序結(jié)構(gòu)圖的可視化,將約簡(jiǎn)后的規(guī)則以圖形化的方式顯示出來(lái),一目了然,層次結(jié)構(gòu)簡(jiǎn)單鮮明,提高了規(guī)則的形象化表達(dá),降低了非醫(yī)學(xué)背景人群進(jìn)行診斷數(shù)據(jù)挖掘和與醫(yī)生溝通的門(mén)檻和難度,證明在提供腫瘤相關(guān)參數(shù)的情況下用本方法進(jìn)行乳腺癌腫瘤性質(zhì)的輔助診斷是可行的。

      3.2 適用性分析

      從數(shù)據(jù)適用性角度分析,本方法可用于對(duì)連續(xù)的定量數(shù)據(jù)和離散的定性數(shù)據(jù)進(jìn)行相關(guān)參數(shù)處理。連續(xù)數(shù)據(jù)經(jīng)過(guò)歸一化后進(jìn)行粒化處理,經(jīng)過(guò)增量學(xué)習(xí)系統(tǒng)生成形式背景;而定性數(shù)據(jù)可直接生成形式背景,并與連續(xù)數(shù)據(jù)的背景融合。

      從增量學(xué)習(xí)模塊設(shè)計(jì)角度,本方法的引入使屬性偏序分類器具有動(dòng)態(tài)學(xué)習(xí)規(guī)則的能力,同時(shí)可以自動(dòng)約簡(jiǎn)冗余模式,減少了內(nèi)存占用,理論上可實(shí)現(xiàn)較大規(guī)模數(shù)據(jù)的連續(xù)增量模式學(xué)習(xí)。

      3.3 其他

      在表10的兩級(jí)Lasso特征不同組合對(duì)準(zhǔn)確率影響的試驗(yàn)結(jié)果中可以看到,從橫向和縱向分析來(lái)看,并不是特征數(shù)越多分類效果越好,這與選擇變量的相關(guān)性有關(guān)。一次Lasso特征篩選是針對(duì)原始的連續(xù)數(shù)據(jù)進(jìn)行的,二次特征選擇是針對(duì)經(jīng)過(guò)粒化后的形式背景的二值數(shù)據(jù)進(jìn)行的,因此屬性特征選擇的價(jià)值性也與粒化準(zhǔn)則的選擇和效果有關(guān)。針對(duì)本方法,將多級(jí)Lasso特征篩選組合設(shè)置為反饋調(diào)節(jié),以準(zhǔn)確率為基本決策指標(biāo)來(lái)尋找局部最優(yōu)組合。因此,在現(xiàn)有基礎(chǔ)上擴(kuò)大特征篩選數(shù)目,挖掘多數(shù)據(jù)量下穩(wěn)定的特征篩選組合,是下一步研究重點(diǎn)。

      4 結(jié)論

      隨著數(shù)據(jù)量的不斷增大,引入增量學(xué)習(xí)和Lasso特征選擇算法,使得利用屬性偏序結(jié)構(gòu)圖動(dòng)態(tài)處理高維數(shù)特征的乳腺癌數(shù)據(jù)成為可能,使得診斷系統(tǒng)具有自學(xué)習(xí)能力,可自動(dòng)根據(jù)屬性和模式覆蓋結(jié)果進(jìn)行更新。本研究結(jié)合Lasso進(jìn)行二次特征篩選,融合增量學(xué)習(xí)機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)了動(dòng)態(tài)更新屬性偏序結(jié)構(gòu)圖生成診斷規(guī)則;提出了基于Gini指數(shù)的?;惴ǎ约盎贑GAO指標(biāo)最小的行列變換算法,實(shí)現(xiàn)了選擇覆蓋大且類別純的屬性作為行列變換的指標(biāo)參數(shù);同時(shí)利用提取規(guī)則與其他分類器進(jìn)行分類準(zhǔn)確率比較,得到了較為理想的分類效果。實(shí)驗(yàn)證明,基于本方法的乳腺癌診斷有利于診斷系統(tǒng)的自動(dòng)化,是一種有效的腫瘤輔助診斷方式。接下來(lái)將擴(kuò)大Lasso特征選取數(shù)目,尋求針對(duì)更多維數(shù)特征的數(shù)據(jù)集選取最佳Lasso特征順序組合的研究方法,從而進(jìn)一步提高基于腫瘤參數(shù)特征的癌癥診斷準(zhǔn)確率。

      猜你喜歡
      偏序?;?/a>特征選擇
      琯溪蜜柚汁胞?;绊懸蛩丶胺揽丶夹g(shù)綜述
      基于有限辛空間的一致偏序集和Leonard對(duì)
      相對(duì)連續(xù)偏序集及其應(yīng)用
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      可消偏序半群的可消偏序擴(kuò)張與商序同態(tài)
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      偏序群S上S-偏序系的內(nèi)射包*
      粗?;疍NA穿孔行為的分子動(dòng)力學(xué)模擬
      基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
      基于二元搭配詞的微博情感特征選擇
      双城市| 芮城县| 宁陵县| 班戈县| 方正县| 南城县| 平陆县| 万安县| 万盛区| 沙洋县| 钟祥市| 额敏县| 贵南县| 礼泉县| 台湾省| 朝阳县| 平顶山市| 临沂市| 广州市| 黔江区| 武城县| 隆昌县| 墨玉县| 密山市| 眉山市| 天津市| 平泉县| 高碑店市| 苏尼特右旗| 江源县| 东阿县| 万山特区| 织金县| 永川市| 尼木县| 卓资县| 霍州市| 台中市| 武定县| 乐至县| 资兴市|