核零空間方法在乳腺癌異常檢測(cè)中的應(yīng)用

2022-02-22 14:21:02唐錦萍

計(jì)算機(jī)技術(shù)與發(fā)展 2022年1期

韓笑，畢波,，唐錦萍，曹莉

(1.東北石油大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院，黑龍江大慶 163318；2.海南醫(yī)學(xué)院公共衛(wèi)生學(xué)院，海南 ?？?571101;3.黑龍江大學(xué) 數(shù)據(jù)科學(xué)與技術(shù)學(xué)院，黑龍江哈爾濱 150080)

0 引言

當(dāng)今時(shí)代，乳腺癌已成為女性最為常見(jiàn)的惡性腫瘤，其發(fā)病率在全球范圍內(nèi)均持續(xù)增長(zhǎng)，每年的確診人數(shù)約高達(dá)28萬(wàn)，具有較高的死亡率，并且越來(lái)越傾向于年輕化。臨床研究表明，乳腺癌的演變過(guò)程大致可以概括為五個(gè)步驟，由一開(kāi)始乳腺的良性病變，之后乳腺良性增生，乳腺不典型增生，再到后來(lái)的乳腺原位癌，到最后的浸潤(rùn)性的乳腺癌，但并不是所有的患者都一定會(huì)按照這樣的規(guī)律逐漸演變，有時(shí)在臨床當(dāng)中也可能會(huì)發(fā)現(xiàn)跳躍式的演變。因此，要想預(yù)防乳腺癌或得到早期的治療，就必須及早地進(jìn)行檢測(cè)，發(fā)現(xiàn)異常，采取相應(yīng)的應(yīng)對(duì)措施。

核零空間算法作為一種單分類(lèi)算法，經(jīng)常用來(lái)進(jìn)行異常檢測(cè)。起初它是源于線性判別分析(LDA)的，利用最大化Fisher準(zhǔn)則的思想，將所有的樣本點(diǎn)通過(guò)某種線性變換(即FST變換)，達(dá)到最小化類(lèi)內(nèi)散度，最大化類(lèi)間散度的目的。之后將類(lèi)內(nèi)距離變?yōu)?，提出了零空間變換(即NFST變換)。但是，這兩種變換都是僅僅考慮了數(shù)據(jù)的線性特征，而數(shù)據(jù)往往還存在許多非線性特征，因此提出了該變換的核化方法，即KNFST變換。首先利用核函數(shù)將數(shù)據(jù)進(jìn)行非線性映射變換到高維空間，然后再利用NFST變換思想，提取使得類(lèi)內(nèi)散度為0，且類(lèi)間散度最大的特征方向，即提取零投影方向。乳腺癌樣本往往具有多個(gè)顯式的線性特征，但也具有很多觀測(cè)不到的隱式的非線性特征，因此為了更好地提取樣本的非線性特征，提高乳腺癌樣本數(shù)據(jù)的異常識(shí)別率，利用核零空間算法對(duì)乳腺癌數(shù)據(jù)進(jìn)行異常檢測(cè)。

該文總結(jié)了零空間方法以及核零空間算法的計(jì)算步驟，有效提取了樣本數(shù)據(jù)的非線性特征。將核零空間算法用于UCI數(shù)據(jù)庫(kù)中的乳腺癌數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn)，通過(guò)對(duì)比不同核函數(shù)以及不同異常閾值下的異常識(shí)別率，充分證明了將核零空間算法用于乳腺癌異常檢測(cè)的有效性。

1 核零空間方法

若

,…,

2,…,

}為一個(gè)含有

個(gè)樣本的數(shù)據(jù)集，其中

∈

,設(shè)

,…,

1}，

,…,

2}，…,

2,…,

}為

個(gè)不同的類(lèi)，其中第

類(lèi)的類(lèi)內(nèi)均值為：

(1)

總均值為：

(2)

1.1 Fisher準(zhǔn)則

假設(shè)

為L(zhǎng)DA算法的投影矩陣，則Fisher準(zhǔn)則公式為：

(3)

考慮到基于最小化類(lèi)內(nèi)散度，最大化類(lèi)間散度的特點(diǎn)，需要計(jì)算類(lèi)內(nèi)方差矩陣與類(lèi)間方差矩陣，分別將類(lèi)內(nèi)散度矩陣與類(lèi)間散度矩陣定義如下：

(4)

1.2 NFST變換

由于很多時(shí)候，樣本數(shù)往往遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)的特征維數(shù)，這時(shí)會(huì)導(dǎo)致奇異。為了解決這個(gè)問(wèn)題，將類(lèi)內(nèi)方差規(guī)定為0，因此提出了零空間線性變換，即(NFST變換)。則令：=0

(6)

(7)

為了同時(shí)滿(mǎn)足上述兩個(gè)條件，在計(jì)算時(shí)引入了總散度矩陣,令：=+

(8)

零投影方向計(jì)算步驟如下：

第三步：得到總的零投影矩陣=。

1.3 KNFST變換

通過(guò)零空間變換，得到的也僅僅是使得分類(lèi)結(jié)果最優(yōu)的線性特征組成的投影矩陣，但是很多數(shù)據(jù)集往往不僅具有顯式的線性特征，而且具有隱式的非線性特征，因此，就提出了核零空間變換(KNFST變換)。這時(shí)就需要先利用核函數(shù)將低維數(shù)據(jù)映射到高維非線性特征空間，然后再進(jìn)行零投影矩陣的計(jì)算。設(shè)經(jīng)過(guò)非線性映射后的特征空間為

,非線性映射后的樣本為

(

),則此時(shí)有：第

類(lèi)的類(lèi)內(nèi)均值為：

(9)

總均值為：

(10)

(11)

(12)

(13)

由于為了提取數(shù)據(jù)的非線性特征，將其利用核函數(shù)映射到了高維空間，因此，在計(jì)算時(shí)需要對(duì)映射后的數(shù)據(jù)進(jìn)行零方向投影，現(xiàn)在需要計(jì)算核矩陣的類(lèi)內(nèi)方差、類(lèi)間方差。其中核矩陣中的每一個(gè)元素都可以表示為樣本間的內(nèi)積形式：

(

))=<

(

(14)

其中，

=1,2,…,

。

核類(lèi)內(nèi)方差矩陣為：

(15)

核類(lèi)間方差矩陣為：

(16)

核總方差矩陣為：

(17)

零投影方向具體計(jì)算步驟如下：

第一步：非線性空間投影，

∈

→

(

)∈

。

第四步：得到總的零投影矩陣=。

在得到零投影矩陣以后，首先將訓(xùn)練集的核投影矩陣按照零投影矩陣的方向，將整個(gè)訓(xùn)練集投影為一個(gè)單點(diǎn)，之后將測(cè)試集中的每一個(gè)樣本先按照非線性映射方向，得到測(cè)試集在非線性映射方向的核投影矩陣，然后再將其按照零投影矩陣的方向投影到零空間上的單個(gè)點(diǎn)，最后計(jì)算零空間上每個(gè)測(cè)試點(diǎn)到正常點(diǎn)樣本的距離，并且通過(guò)判斷該距離與事先設(shè)定的異常閾值的大小，來(lái)判斷測(cè)試樣本是否為異常樣本。

2 實(shí)驗(yàn)應(yīng)用分析

由于醫(yī)療行業(yè)的特殊性，時(shí)時(shí)刻刻都在產(chǎn)生海量的醫(yī)療數(shù)據(jù)，數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)為這些海量醫(yī)療數(shù)據(jù)的分析和應(yīng)用提供了新的思路和手段。通過(guò)讀取乳房X光造影的測(cè)量指標(biāo)，用機(jī)器學(xué)習(xí)算法來(lái)檢測(cè)乳腺癌，是目前人工智能和醫(yī)學(xué)領(lǐng)域交叉的研究熱點(diǎn)。

該文選取核零空間算法對(duì)乳腺細(xì)胞的各項(xiàng)測(cè)量數(shù)據(jù)進(jìn)行異常檢測(cè)，但是乳腺癌樣本數(shù)據(jù)的特征維數(shù)很多，因此如何有效地進(jìn)行非線性映射是取得滿(mǎn)意結(jié)果的關(guān)鍵。運(yùn)用核零空間算法進(jìn)行乳腺癌異常檢測(cè)主要依賴(lài)于核函數(shù)的選取以及核函數(shù)參數(shù)和異常閾值的設(shè)置。下面分別對(duì)乳腺癌數(shù)據(jù)在不同核函數(shù)、不同核參數(shù)和不同異常閾值下的F1-score做了對(duì)比，并且得出了結(jié)論。

2.1 數(shù)據(jù)準(zhǔn)備

選取UCI數(shù)據(jù)庫(kù)中的breast-Cancer數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集，它一共包含699個(gè)樣本數(shù)據(jù)，其中良性樣本數(shù)據(jù)有458個(gè)，惡性樣本數(shù)據(jù)有241個(gè)，其中每個(gè)樣本都含有9個(gè)特征，分別為：Clump Thickness，Uniformity of Cell Size，Uniformity of Cell Shape，Marginal Adhesion，Single Epithelial Cell Size，Bare Nuclei，Bland Chromatin，Normal Nucleoli，Mitoses。除此之外，還含有16處缺失值。

(1)數(shù)據(jù)缺失值處理：利用缺失值所在列的平均值填充缺失值。

(2)數(shù)據(jù)歸一化處理：數(shù)據(jù)特征不同，對(duì)應(yīng)的值可能存在的差異特別大，因此為了減小這種影響，對(duì)數(shù)據(jù)先進(jìn)行歸一化處理，將每個(gè)值都設(shè)定在[0,1]范圍內(nèi)。這里分別對(duì)每個(gè)樣本的每個(gè)特征都做歸一化處理，即：

(18)

其中，

表示每一列的最小值，

表示每一列的最大值。

(3)數(shù)據(jù)集劃分：對(duì)歸一化后的數(shù)據(jù)進(jìn)行測(cè)試集與訓(xùn)練集的劃分，將所有正常樣本的70%作為訓(xùn)練集，剩下的30%作為測(cè)試集的一部分，然后再將所有的異常樣本放入測(cè)試集中，共同組成完整的測(cè)試集。

2.2 核函數(shù)選取

分別利用多項(xiàng)式核函數(shù)與高斯核函數(shù)建立核矩陣。

多項(xiàng)式核函數(shù)為：

(

)=(1+

x.y

)

(19)

高斯核函數(shù)為：

(

)=e-(-)

(20)

利用訓(xùn)練集建立核矩陣，計(jì)算零投影方向，然后將測(cè)試集按照該方向投影在零空間上，通過(guò)計(jì)算測(cè)試集的F1-score來(lái)驗(yàn)證模型的有效性。

2.3 實(shí)驗(yàn)及結(jié)果分析

首先利用核零空間算法對(duì)乳腺癌訓(xùn)練集建立模型，然后再利用乳腺癌樣本數(shù)據(jù)測(cè)試集對(duì)該模型進(jìn)行測(cè)試，得到不同條件下的識(shí)別率。

分別取多項(xiàng)式核函數(shù)

=2,

=3,

=4,

=5，以及高斯核函數(shù)的ROC曲線，如圖1～圖5所示。

圖1 d=2的多項(xiàng)式函數(shù)的ROC曲線

圖2 d=3的多項(xiàng)式函數(shù)的ROC曲線

圖3 d=4的多項(xiàng)式函數(shù)的ROC曲線

圖4 d=5的多項(xiàng)式函數(shù)的ROC曲線

圖5 γ=1的高斯核函數(shù)的ROC曲線

通過(guò)觀察圖像，利用多項(xiàng)式核作為核函數(shù)時(shí)，在

=2時(shí)，模型表現(xiàn)最差，之后隨著參數(shù)

的增加，在

=3時(shí)，表現(xiàn)最好，隨后，

=4,

=5時(shí)，模型表現(xiàn)逐漸變差。這說(shuō)明利用多項(xiàng)式作為核函數(shù)時(shí)，選取

=3為最佳參數(shù)。但是，相比于多項(xiàng)式作為核函數(shù)，發(fā)現(xiàn)使用

=1的高斯核作為核函數(shù)時(shí)，模型的表現(xiàn)要比任何參數(shù)下的多項(xiàng)式函數(shù)的表現(xiàn)都好，當(dāng)然高斯核函數(shù)也可通過(guò)調(diào)節(jié)參數(shù)得到不同的結(jié)果，但這里僅討論

=1時(shí)的高斯核函數(shù)。因此，利用核零空間算法對(duì)乳腺癌數(shù)據(jù)進(jìn)行檢測(cè)時(shí)，利用高斯核函數(shù)要優(yōu)于多項(xiàng)式核函數(shù)。

下面是具體地使用不同核函數(shù)時(shí)，取所有樣本點(diǎn)到正常點(diǎn)的測(cè)試樣本的平均值(Mean)作為異常閾值與取使得F1-score不等于1的最大值對(duì)應(yīng)的測(cè)試點(diǎn)的距離作為異常閾值(Best)的F1-score結(jié)果對(duì)比。

表1 不同核函數(shù)下取Mean與Best作為異常閾值的F1-score結(jié)果

通過(guò)觀察圖表發(fā)現(xiàn)，縱向來(lái)看，無(wú)論利用什么核函數(shù)，當(dāng)選取測(cè)試集到正常點(diǎn)的平均距離(Mean)作為異常閾值進(jìn)行判斷時(shí)的識(shí)別率都比選取Best作為異常閾值的F1-score分?jǐn)?shù)低。橫向來(lái)看，僅看多項(xiàng)式函數(shù)時(shí)，最佳F1-score為取參數(shù)

=3時(shí)，獲得最高的F1-score分?jǐn)?shù)91.45%，隨后，隨著參數(shù)的增加，F(xiàn)1-score分?jǐn)?shù)逐漸減少，但是，若取

=1的高斯核作為核函數(shù)，則模型的F1-score分?jǐn)?shù)要遠(yuǎn)遠(yuǎn)超過(guò)任何參數(shù)下的多項(xiàng)式核函數(shù)的模型F1-score分?jǐn)?shù)，達(dá)到了96.27%。這表明使用

=1的高斯核作為核函數(shù)時(shí)的模型的性能比任何參數(shù)下的多項(xiàng)式核函數(shù)的模型的性能都好。

綜上所述，在利用核零空間算法進(jìn)行異常檢測(cè)時(shí)，選取一個(gè)合適的核函數(shù)以及定義一個(gè)最佳的異常判別閾值，對(duì)模型的結(jié)果有很大的影響。在對(duì)乳腺癌數(shù)據(jù)集進(jìn)行異常檢測(cè)時(shí)，選取高斯核函數(shù)進(jìn)行非線性映射無(wú)疑是要優(yōu)于多項(xiàng)式核函數(shù)的。

3 結(jié)束語(yǔ)

該文基于最大化Fisher原則，利用核零空間算法在處理高維數(shù)據(jù)及有效提取數(shù)據(jù)非線性特征上的優(yōu)勢(shì)，將其運(yùn)用于UCI數(shù)據(jù)集的乳腺癌數(shù)據(jù)集上，通過(guò)MATLAB仿真實(shí)驗(yàn)發(fā)現(xiàn)，使用

=1的高斯核作為核函數(shù)時(shí)的模型的F1-score分?jǐn)?shù)比任何參數(shù)下的多項(xiàng)式核函數(shù)的模型的F1-score分?jǐn)?shù)都高，并且不同異常閾值下的F1-score分?jǐn)?shù)也不同，充分證明了運(yùn)用核零空間算法進(jìn)行乳腺癌異常檢測(cè)的有效性。未來(lái)如何通過(guò)建立更加有效的核函數(shù)，選取更加合適的異常閾值從而實(shí)現(xiàn)更高的識(shí)別率，加快大數(shù)據(jù)集的運(yùn)行速度仍然是一個(gè)值得深入研究的問(wèn)題。