• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      核零空間方法在乳腺癌異常檢測(cè)中的應(yīng)用

      2022-02-22 14:21:02唐錦萍
      關(guān)鍵詞:高斯投影閾值

      韓 笑,畢 波,,唐錦萍,曹 莉

      (1.東北石油大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,黑龍江 大慶 163318;2.海南醫(yī)學(xué)院公共衛(wèi)生學(xué)院,海南 ???571101;3.黑龍江大學(xué) 數(shù)據(jù)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150080)

      0 引 言

      當(dāng)今時(shí)代,乳腺癌已成為女性最為常見(jiàn)的惡性腫瘤,其發(fā)病率在全球范圍內(nèi)均持續(xù)增長(zhǎng),每年的確診人數(shù)約高達(dá)28萬(wàn),具有較高的死亡率,并且越來(lái)越傾向于年輕化。臨床研究表明,乳腺癌的演變過(guò)程大致可以概括為五個(gè)步驟,由一開(kāi)始乳腺的良性病變,之后乳腺良性增生,乳腺不典型增生,再到后來(lái)的乳腺原位癌,到最后的浸潤(rùn)性的乳腺癌,但并不是所有的患者都一定會(huì)按照這樣的規(guī)律逐漸演變,有時(shí)在臨床當(dāng)中也可能會(huì)發(fā)現(xiàn)跳躍式的演變。因此,要想預(yù)防乳腺癌或得到早期的治療,就必須及早地進(jìn)行檢測(cè),發(fā)現(xiàn)異常,采取相應(yīng)的應(yīng)對(duì)措施。

      核零空間算法作為一種單分類(lèi)算法,經(jīng)常用來(lái)進(jìn)行異常檢測(cè)。起初它是源于線性判別分析(LDA)的,利用最大化Fisher準(zhǔn)則的思想,將所有的樣本點(diǎn)通過(guò)某種線性變換(即FST變換),達(dá)到最小化類(lèi)內(nèi)散度,最大化類(lèi)間散度的目的。之后將類(lèi)內(nèi)距離變?yōu)?,提出了零空間變換(即NFST變換)。但是,這兩種變換都是僅僅考慮了數(shù)據(jù)的線性特征,而數(shù)據(jù)往往還存在許多非線性特征,因此提出了該變換的核化方法,即KNFST變換。首先利用核函數(shù)將數(shù)據(jù)進(jìn)行非線性映射變換到高維空間,然后再利用NFST變換思想,提取使得類(lèi)內(nèi)散度為0,且類(lèi)間散度最大的特征方向,即提取零投影方向。乳腺癌樣本往往具有多個(gè)顯式的線性特征,但也具有很多觀測(cè)不到的隱式的非線性特征,因此為了更好地提取樣本的非線性特征,提高乳腺癌樣本數(shù)據(jù)的異常識(shí)別率,利用核零空間算法對(duì)乳腺癌數(shù)據(jù)進(jìn)行異常檢測(cè)。

      該文總結(jié)了零空間方法以及核零空間算法的計(jì)算步驟,有效提取了樣本數(shù)據(jù)的非線性特征。將核零空間算法用于UCI數(shù)據(jù)庫(kù)中的乳腺癌數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn),通過(guò)對(duì)比不同核函數(shù)以及不同異常閾值下的異常識(shí)別率,充分證明了將核零空間算法用于乳腺癌異常檢測(cè)的有效性。

      1 核零空間方法

      X

      ={

      x

      ,

      x

      ,…,

      x

      1,

      x

      ,

      x

      ,…,

      x

      2,…,

      x

      1,

      x

      2,…,

      x

      }為一個(gè)含有

      N

      個(gè)樣本的數(shù)據(jù)集,其中

      X

      R

      ,設(shè)

      X

      ={

      x

      ,

      x

      ,…,

      x

      1},

      X

      ={

      x

      ,

      x

      ,…,

      x

      2},…,

      X

      ={

      x

      1,

      x

      2,…,

      x

      }為

      C

      個(gè)不同的類(lèi),其中第

      i

      類(lèi)的類(lèi)內(nèi)均值為:

      (1)

      總均值為:

      (2)

      1.1 Fisher準(zhǔn)則

      假設(shè)

      φ

      為L(zhǎng)DA算法的投影矩陣,則Fisher準(zhǔn)則公式為:

      (3)

      考慮到基于最小化類(lèi)內(nèi)散度,最大化類(lèi)間散度的特點(diǎn),需要計(jì)算類(lèi)內(nèi)方差矩陣與類(lèi)間方差矩陣,分別將類(lèi)內(nèi)散度矩陣與類(lèi)間散度矩陣定義如下:

      (4)

      1.2 NFST變換

      由于很多時(shí)候,樣本數(shù)往往遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)的特征維數(shù),這時(shí)會(huì)導(dǎo)致奇異。為了解決這個(gè)問(wèn)題,將類(lèi)內(nèi)方差規(guī)定為0,因此提出了零空間線性變換,即(NFST變換)。則令:=0

      (6)

      >0

      (7)

      為了同時(shí)滿(mǎn)足上述兩個(gè)條件,在計(jì)算時(shí)引入了總散度矩陣,令:=+

      (8)

      零投影方向計(jì)算步驟如下:

      第三步:得到總的零投影矩陣=。

      1.3 KNFST變換

      通過(guò)零空間變換,得到的也僅僅是使得分類(lèi)結(jié)果最優(yōu)的線性特征組成的投影矩陣,但是很多數(shù)據(jù)集往往不僅具有顯式的線性特征,而且具有隱式的非線性特征,因此,就提出了核零空間變換(KNFST變換)。這時(shí)就需要先利用核函數(shù)將低維數(shù)據(jù)映射到高維非線性特征空間,然后再進(jìn)行零投影矩陣的計(jì)算。設(shè)經(jīng)過(guò)非線性映射后的特征空間為

      F

      ,非線性映射后的樣本為

      φ

      (

      X

      ),則此時(shí)有:第

      i

      類(lèi)的類(lèi)內(nèi)均值為:

      (9)

      總均值為:

      (10)

      (11)

      (12)

      (13)

      由于為了提取數(shù)據(jù)的非線性特征,將其利用核函數(shù)映射到了高維空間,因此,在計(jì)算時(shí)需要對(duì)映射后的數(shù)據(jù)進(jìn)行零方向投影,現(xiàn)在需要計(jì)算核矩陣的類(lèi)內(nèi)方差、類(lèi)間方差。其中核矩陣中的每一個(gè)元素都可以表示為樣本間的內(nèi)積形式:

      K

      =(

      φ

      (

      x

      ),

      φ

      (

      x

      ))=<

      φ

      (

      x

      ),

      φ

      (

      x

      )>

      (14)

      其中,

      k

      =1,2,…,

      c

      ,

      l

      =1,2,…,

      n

      。

      核類(lèi)內(nèi)方差矩陣為:

      (15)

      核類(lèi)間方差矩陣為:

      (16)

      核總方差矩陣為:

      (17)

      零投影方向具體計(jì)算步驟如下:

      第一步:非線性空間投影,

      X

      R

      φ

      (

      X

      )∈

      F

      。

      第四步:得到總的零投影矩陣=

      在得到零投影矩陣以后,首先將訓(xùn)練集的核投影矩陣按照零投影矩陣的方向,將整個(gè)訓(xùn)練集投影為一個(gè)單點(diǎn),之后將測(cè)試集中的每一個(gè)樣本先按照非線性映射方向,得到測(cè)試集在非線性映射方向的核投影矩陣,然后再將其按照零投影矩陣的方向投影到零空間上的單個(gè)點(diǎn),最后計(jì)算零空間上每個(gè)測(cè)試點(diǎn)到正常點(diǎn)樣本的距離,并且通過(guò)判斷該距離與事先設(shè)定的異常閾值的大小,來(lái)判斷測(cè)試樣本是否為異常樣本。

      2 實(shí)驗(yàn)應(yīng)用分析

      由于醫(yī)療行業(yè)的特殊性,時(shí)時(shí)刻刻都在產(chǎn)生海量的醫(yī)療數(shù)據(jù),數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)為這些海量醫(yī)療數(shù)據(jù)的分析和應(yīng)用提供了新的思路和手段。通過(guò)讀取乳房X光造影的測(cè)量指標(biāo),用機(jī)器學(xué)習(xí)算法來(lái)檢測(cè)乳腺癌,是目前人工智能和醫(yī)學(xué)領(lǐng)域交叉的研究熱點(diǎn)。

      該文選取核零空間算法對(duì)乳腺細(xì)胞的各項(xiàng)測(cè)量數(shù)據(jù)進(jìn)行異常檢測(cè),但是乳腺癌樣本數(shù)據(jù)的特征維數(shù)很多,因此如何有效地進(jìn)行非線性映射是取得滿(mǎn)意結(jié)果的關(guān)鍵。運(yùn)用核零空間算法進(jìn)行乳腺癌異常檢測(cè)主要依賴(lài)于核函數(shù)的選取以及核函數(shù)參數(shù)和異常閾值的設(shè)置。下面分別對(duì)乳腺癌數(shù)據(jù)在不同核函數(shù)、不同核參數(shù)和不同異常閾值下的F1-score做了對(duì)比,并且得出了結(jié)論。

      2.1 數(shù)據(jù)準(zhǔn)備

      選取UCI數(shù)據(jù)庫(kù)中的breast-Cancer數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,它一共包含699個(gè)樣本數(shù)據(jù),其中良性樣本數(shù)據(jù)有458個(gè),惡性樣本數(shù)據(jù)有241個(gè),其中每個(gè)樣本都含有9個(gè)特征,分別為:Clump Thickness,Uniformity of Cell Size,Uniformity of Cell Shape,Marginal Adhesion,Single Epithelial Cell Size,Bare Nuclei,Bland Chromatin,Normal Nucleoli,Mitoses。除此之外,還含有16處缺失值。

      (1)數(shù)據(jù)缺失值處理:利用缺失值所在列的平均值填充缺失值。

      (2)數(shù)據(jù)歸一化處理:數(shù)據(jù)特征不同,對(duì)應(yīng)的值可能存在的差異特別大,因此為了減小這種影響,對(duì)數(shù)據(jù)先進(jìn)行歸一化處理,將每個(gè)值都設(shè)定在[0,1]范圍內(nèi)。這里分別對(duì)每個(gè)樣本的每個(gè)特征都做歸一化處理,即:

      (18)

      其中,

      x

      表示每一列的最小值,

      x

      表示每一列的最大值。

      (3)數(shù)據(jù)集劃分:對(duì)歸一化后的數(shù)據(jù)進(jìn)行測(cè)試集與訓(xùn)練集的劃分,將所有正常樣本的70%作為訓(xùn)練集,剩下的30%作為測(cè)試集的一部分,然后再將所有的異常樣本放入測(cè)試集中,共同組成完整的測(cè)試集。

      2.2 核函數(shù)選取

      分別利用多項(xiàng)式核函數(shù)與高斯核函數(shù)建立核矩陣。

      多項(xiàng)式核函數(shù)為:

      K

      (

      x

      ,

      y

      )=(1+

      x.y

      )

      (19)

      高斯核函數(shù)為:

      K

      (

      x

      ,

      y

      )=e-(-)

      (20)

      利用訓(xùn)練集建立核矩陣,計(jì)算零投影方向,然后將測(cè)試集按照該方向投影在零空間上,通過(guò)計(jì)算測(cè)試集的F1-score來(lái)驗(yàn)證模型的有效性。

      2.3 實(shí)驗(yàn)及結(jié)果分析

      首先利用核零空間算法對(duì)乳腺癌訓(xùn)練集建立模型,然后再利用乳腺癌樣本數(shù)據(jù)測(cè)試集對(duì)該模型進(jìn)行測(cè)試,得到不同條件下的識(shí)別率。

      分別取多項(xiàng)式核函數(shù)

      d

      =2,

      d

      =3,

      d

      =4,

      d

      =5,以及高斯核函數(shù)的ROC曲線,如圖1~圖5所示。

      圖1 d=2的多項(xiàng)式函數(shù)的ROC曲線

      圖2 d=3的多項(xiàng)式函數(shù)的ROC曲線

      圖3 d=4的多項(xiàng)式函數(shù)的ROC曲線

      圖4 d=5的多項(xiàng)式函數(shù)的ROC曲線

      圖5 γ=1的高斯核函數(shù)的ROC曲線

      通過(guò)觀察圖像,利用多項(xiàng)式核作為核函數(shù)時(shí),在

      d

      =2時(shí),模型表現(xiàn)最差,之后隨著參數(shù)

      d

      的增加,在

      d

      =3時(shí),表現(xiàn)最好,隨后,

      d

      =4,

      d

      =5時(shí),模型表現(xiàn)逐漸變差。這說(shuō)明利用多項(xiàng)式作為核函數(shù)時(shí),選取

      d

      =3為最佳參數(shù)。但是,相比于多項(xiàng)式作為核函數(shù),發(fā)現(xiàn)使用

      γ

      =1的高斯核作為核函數(shù)時(shí),模型的表現(xiàn)要比任何參數(shù)下的多項(xiàng)式函數(shù)的表現(xiàn)都好,當(dāng)然高斯核函數(shù)也可通過(guò)調(diào)節(jié)參數(shù)得到不同的結(jié)果,但這里僅討論

      γ

      =1時(shí)的高斯核函數(shù)。因此,利用核零空間算法對(duì)乳腺癌數(shù)據(jù)進(jìn)行檢測(cè)時(shí),利用高斯核函數(shù)要優(yōu)于多項(xiàng)式核函數(shù)。

      下面是具體地使用不同核函數(shù)時(shí),取所有樣本點(diǎn)到正常點(diǎn)的測(cè)試樣本的平均值(Mean)作為異常閾值與取使得F1-score不等于1的最大值對(duì)應(yīng)的測(cè)試點(diǎn)的距離作為異常閾值(Best)的F1-score結(jié)果對(duì)比。

      表1 不同核函數(shù)下取Mean與Best作為異常 閾值的F1-score結(jié)果

      通過(guò)觀察圖表發(fā)現(xiàn),縱向來(lái)看,無(wú)論利用什么核函數(shù),當(dāng)選取測(cè)試集到正常點(diǎn)的平均距離(Mean)作為異常閾值進(jìn)行判斷時(shí)的識(shí)別率都比選取Best作為異常閾值的F1-score分?jǐn)?shù)低。橫向來(lái)看,僅看多項(xiàng)式函數(shù)時(shí),最佳F1-score為取參數(shù)

      d

      =3時(shí),獲得最高的F1-score分?jǐn)?shù)91.45%,隨后,隨著參數(shù)的增加,F(xiàn)1-score分?jǐn)?shù)逐漸減少,但是,若取

      γ

      =1的高斯核作為核函數(shù),則模型的F1-score分?jǐn)?shù)要遠(yuǎn)遠(yuǎn)超過(guò)任何參數(shù)下的多項(xiàng)式核函數(shù)的模型F1-score分?jǐn)?shù),達(dá)到了96.27%。這表明使用

      γ

      =1的高斯核作為核函數(shù)時(shí)的模型的性能比任何參數(shù)下的多項(xiàng)式核函數(shù)的模型的性能都好。

      綜上所述,在利用核零空間算法進(jìn)行異常檢測(cè)時(shí),選取一個(gè)合適的核函數(shù)以及定義一個(gè)最佳的異常判別閾值,對(duì)模型的結(jié)果有很大的影響。在對(duì)乳腺癌數(shù)據(jù)集進(jìn)行異常檢測(cè)時(shí),選取高斯核函數(shù)進(jìn)行非線性映射無(wú)疑是要優(yōu)于多項(xiàng)式核函數(shù)的。

      3 結(jié)束語(yǔ)

      該文基于最大化Fisher原則,利用核零空間算法在處理高維數(shù)據(jù)及有效提取數(shù)據(jù)非線性特征上的優(yōu)勢(shì),將其運(yùn)用于UCI數(shù)據(jù)集的乳腺癌數(shù)據(jù)集上,通過(guò)MATLAB仿真實(shí)驗(yàn)發(fā)現(xiàn),使用

      γ

      =1的高斯核作為核函數(shù)時(shí)的模型的F1-score分?jǐn)?shù)比任何參數(shù)下的多項(xiàng)式核函數(shù)的模型的F1-score分?jǐn)?shù)都高,并且不同異常閾值下的F1-score分?jǐn)?shù)也不同,充分證明了運(yùn)用核零空間算法進(jìn)行乳腺癌異常檢測(cè)的有效性。未來(lái)如何通過(guò)建立更加有效的核函數(shù),選取更加合適的異常閾值從而實(shí)現(xiàn)更高的識(shí)別率,加快大數(shù)據(jù)集的運(yùn)行速度仍然是一個(gè)值得深入研究的問(wèn)題。

      猜你喜歡
      高斯投影閾值
      小高斯的大發(fā)現(xiàn)
      解變分不等式的一種二次投影算法
      基于最大相關(guān)熵的簇稀疏仿射投影算法
      小波閾值去噪在深小孔鉆削聲發(fā)射信號(hào)處理中的應(yīng)用
      天才數(shù)學(xué)家——高斯
      找投影
      找投影
      基于自適應(yīng)閾值和連通域的隧道裂縫提取
      比值遙感蝕變信息提取及閾值確定(插圖)
      河北遙感(2017年2期)2017-08-07 14:49:00
      室內(nèi)表面平均氡析出率閾值探討
      安化县| 上栗县| 海南省| 盐山县| 清涧县| 中山市| 福海县| 特克斯县| 许昌县| 英山县| 绥阳县| 广南县| 波密县| 甘谷县| 榆林市| 台湾省| 屏东市| 定州市| 健康| 阜新市| 沁水县| 阿克| 清水县| 天台县| 东城区| 揭阳市| 邹城市| 南陵县| 玉田县| 富顺县| 宿州市| 大埔区| 昭觉县| 富裕县| 福泉市| 蚌埠市| 浦北县| 沙田区| 洛阳市| 宜君县| 巴林右旗|