韓 笑,畢 波,,唐錦萍,曹 莉
(1.東北石油大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,黑龍江 大慶 163318;2.海南醫(yī)學(xué)院公共衛(wèi)生學(xué)院,海南 ???571101;3.黑龍江大學(xué) 數(shù)據(jù)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150080)
當(dāng)今時(shí)代,乳腺癌已成為女性最為常見(jiàn)的惡性腫瘤,其發(fā)病率在全球范圍內(nèi)均持續(xù)增長(zhǎng),每年的確診人數(shù)約高達(dá)28萬(wàn),具有較高的死亡率,并且越來(lái)越傾向于年輕化。臨床研究表明,乳腺癌的演變過(guò)程大致可以概括為五個(gè)步驟,由一開(kāi)始乳腺的良性病變,之后乳腺良性增生,乳腺不典型增生,再到后來(lái)的乳腺原位癌,到最后的浸潤(rùn)性的乳腺癌,但并不是所有的患者都一定會(huì)按照這樣的規(guī)律逐漸演變,有時(shí)在臨床當(dāng)中也可能會(huì)發(fā)現(xiàn)跳躍式的演變。因此,要想預(yù)防乳腺癌或得到早期的治療,就必須及早地進(jìn)行檢測(cè),發(fā)現(xiàn)異常,采取相應(yīng)的應(yīng)對(duì)措施。
核零空間算法作為一種單分類(lèi)算法,經(jīng)常用來(lái)進(jìn)行異常檢測(cè)。起初它是源于線性判別分析(LDA)的,利用最大化Fisher準(zhǔn)則的思想,將所有的樣本點(diǎn)通過(guò)某種線性變換(即FST變換),達(dá)到最小化類(lèi)內(nèi)散度,最大化類(lèi)間散度的目的。之后將類(lèi)內(nèi)距離變?yōu)?,提出了零空間變換(即NFST變換)。但是,這兩種變換都是僅僅考慮了數(shù)據(jù)的線性特征,而數(shù)據(jù)往往還存在許多非線性特征,因此提出了該變換的核化方法,即KNFST變換。首先利用核函數(shù)將數(shù)據(jù)進(jìn)行非線性映射變換到高維空間,然后再利用NFST變換思想,提取使得類(lèi)內(nèi)散度為0,且類(lèi)間散度最大的特征方向,即提取零投影方向。乳腺癌樣本往往具有多個(gè)顯式的線性特征,但也具有很多觀測(cè)不到的隱式的非線性特征,因此為了更好地提取樣本的非線性特征,提高乳腺癌樣本數(shù)據(jù)的異常識(shí)別率,利用核零空間算法對(duì)乳腺癌數(shù)據(jù)進(jìn)行異常檢測(cè)。
該文總結(jié)了零空間方法以及核零空間算法的計(jì)算步驟,有效提取了樣本數(shù)據(jù)的非線性特征。將核零空間算法用于UCI數(shù)據(jù)庫(kù)中的乳腺癌數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn),通過(guò)對(duì)比不同核函數(shù)以及不同異常閾值下的異常識(shí)別率,充分證明了將核零空間算法用于乳腺癌異常檢測(cè)的有效性。
X
={x
,x
,…,x
1,x
,x
,…,x
2,…,x
1,x
2,…,x
}為一個(gè)含有N
個(gè)樣本的數(shù)據(jù)集,其中X
∈R
,設(shè)X
={x
,x
,…,x
1},X
={x
,x
,…,x
2},…,X
={x
1,x
2,…,x
}為C
個(gè)不同的類(lèi),其中第i
類(lèi)的類(lèi)內(nèi)均值為:(1)
總均值為:
(2)
φ
為L(zhǎng)DA算法的投影矩陣,則Fisher準(zhǔn)則公式為:(3)
考慮到基于最小化類(lèi)內(nèi)散度,最大化類(lèi)間散度的特點(diǎn),需要計(jì)算類(lèi)內(nèi)方差矩陣與類(lèi)間方差矩陣,分別將類(lèi)內(nèi)散度矩陣與類(lèi)間散度矩陣定義如下:(4)
(6)
>0(7)
為了同時(shí)滿(mǎn)足上述兩個(gè)條件,在計(jì)算時(shí)引入了總散度矩陣,令:=+(8)
零投影方向計(jì)算步驟如下:
F
,非線性映射后的樣本為φ
(X
),則此時(shí)有:第i
類(lèi)的類(lèi)內(nèi)均值為:(9)
總均值為:
(10)
(11)
(12)
(13)
由于為了提取數(shù)據(jù)的非線性特征,將其利用核函數(shù)映射到了高維空間,因此,在計(jì)算時(shí)需要對(duì)映射后的數(shù)據(jù)進(jìn)行零方向投影,現(xiàn)在需要計(jì)算核矩陣的類(lèi)內(nèi)方差、類(lèi)間方差。其中核矩陣中的每一個(gè)元素都可以表示為樣本間的內(nèi)積形式:
K
=(φ
(x
),φ
(x
))=<φ
(x
),φ
(x
)>(14)
其中,k
=1,2,…,c
,l
=1,2,…,n
。核類(lèi)內(nèi)方差矩陣為:
(15)
核類(lèi)間方差矩陣為:
(16)
核總方差矩陣為:
(17)
零投影方向具體計(jì)算步驟如下:
第一步:非線性空間投影,X
∈R
→φ
(X
)∈F
。在得到零投影矩陣以后,首先將訓(xùn)練集的核投影矩陣按照零投影矩陣的方向,將整個(gè)訓(xùn)練集投影為一個(gè)單點(diǎn),之后將測(cè)試集中的每一個(gè)樣本先按照非線性映射方向,得到測(cè)試集在非線性映射方向的核投影矩陣,然后再將其按照零投影矩陣的方向投影到零空間上的單個(gè)點(diǎn),最后計(jì)算零空間上每個(gè)測(cè)試點(diǎn)到正常點(diǎn)樣本的距離,并且通過(guò)判斷該距離與事先設(shè)定的異常閾值的大小,來(lái)判斷測(cè)試樣本是否為異常樣本。
由于醫(yī)療行業(yè)的特殊性,時(shí)時(shí)刻刻都在產(chǎn)生海量的醫(yī)療數(shù)據(jù),數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)為這些海量醫(yī)療數(shù)據(jù)的分析和應(yīng)用提供了新的思路和手段。通過(guò)讀取乳房X光造影的測(cè)量指標(biāo),用機(jī)器學(xué)習(xí)算法來(lái)檢測(cè)乳腺癌,是目前人工智能和醫(yī)學(xué)領(lǐng)域交叉的研究熱點(diǎn)。
該文選取核零空間算法對(duì)乳腺細(xì)胞的各項(xiàng)測(cè)量數(shù)據(jù)進(jìn)行異常檢測(cè),但是乳腺癌樣本數(shù)據(jù)的特征維數(shù)很多,因此如何有效地進(jìn)行非線性映射是取得滿(mǎn)意結(jié)果的關(guān)鍵。運(yùn)用核零空間算法進(jìn)行乳腺癌異常檢測(cè)主要依賴(lài)于核函數(shù)的選取以及核函數(shù)參數(shù)和異常閾值的設(shè)置。下面分別對(duì)乳腺癌數(shù)據(jù)在不同核函數(shù)、不同核參數(shù)和不同異常閾值下的F1-score做了對(duì)比,并且得出了結(jié)論。
選取UCI數(shù)據(jù)庫(kù)中的breast-Cancer數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,它一共包含699個(gè)樣本數(shù)據(jù),其中良性樣本數(shù)據(jù)有458個(gè),惡性樣本數(shù)據(jù)有241個(gè),其中每個(gè)樣本都含有9個(gè)特征,分別為:Clump Thickness,Uniformity of Cell Size,Uniformity of Cell Shape,Marginal Adhesion,Single Epithelial Cell Size,Bare Nuclei,Bland Chromatin,Normal Nucleoli,Mitoses。除此之外,還含有16處缺失值。
(1)數(shù)據(jù)缺失值處理:利用缺失值所在列的平均值填充缺失值。
(2)數(shù)據(jù)歸一化處理:數(shù)據(jù)特征不同,對(duì)應(yīng)的值可能存在的差異特別大,因此為了減小這種影響,對(duì)數(shù)據(jù)先進(jìn)行歸一化處理,將每個(gè)值都設(shè)定在[0,1]范圍內(nèi)。這里分別對(duì)每個(gè)樣本的每個(gè)特征都做歸一化處理,即:
(18)
其中,x
表示每一列的最小值,x
表示每一列的最大值。(3)數(shù)據(jù)集劃分:對(duì)歸一化后的數(shù)據(jù)進(jìn)行測(cè)試集與訓(xùn)練集的劃分,將所有正常樣本的70%作為訓(xùn)練集,剩下的30%作為測(cè)試集的一部分,然后再將所有的異常樣本放入測(cè)試集中,共同組成完整的測(cè)試集。
分別利用多項(xiàng)式核函數(shù)與高斯核函數(shù)建立核矩陣。
多項(xiàng)式核函數(shù)為:
K
(x
,y
)=(1+x.y
)(19)
高斯核函數(shù)為:
K
(x
,y
)=e-(-)(20)
利用訓(xùn)練集建立核矩陣,計(jì)算零投影方向,然后將測(cè)試集按照該方向投影在零空間上,通過(guò)計(jì)算測(cè)試集的F1-score來(lái)驗(yàn)證模型的有效性。
首先利用核零空間算法對(duì)乳腺癌訓(xùn)練集建立模型,然后再利用乳腺癌樣本數(shù)據(jù)測(cè)試集對(duì)該模型進(jìn)行測(cè)試,得到不同條件下的識(shí)別率。
分別取多項(xiàng)式核函數(shù)d
=2,d
=3,d
=4,d
=5,以及高斯核函數(shù)的ROC曲線,如圖1~圖5所示。圖1 d=2的多項(xiàng)式函數(shù)的ROC曲線
圖2 d=3的多項(xiàng)式函數(shù)的ROC曲線
圖3 d=4的多項(xiàng)式函數(shù)的ROC曲線
圖4 d=5的多項(xiàng)式函數(shù)的ROC曲線
圖5 γ=1的高斯核函數(shù)的ROC曲線
通過(guò)觀察圖像,利用多項(xiàng)式核作為核函數(shù)時(shí),在d
=2時(shí),模型表現(xiàn)最差,之后隨著參數(shù)d
的增加,在d
=3時(shí),表現(xiàn)最好,隨后,d
=4,d
=5時(shí),模型表現(xiàn)逐漸變差。這說(shuō)明利用多項(xiàng)式作為核函數(shù)時(shí),選取d
=3為最佳參數(shù)。但是,相比于多項(xiàng)式作為核函數(shù),發(fā)現(xiàn)使用γ
=1的高斯核作為核函數(shù)時(shí),模型的表現(xiàn)要比任何參數(shù)下的多項(xiàng)式函數(shù)的表現(xiàn)都好,當(dāng)然高斯核函數(shù)也可通過(guò)調(diào)節(jié)參數(shù)得到不同的結(jié)果,但這里僅討論γ
=1時(shí)的高斯核函數(shù)。因此,利用核零空間算法對(duì)乳腺癌數(shù)據(jù)進(jìn)行檢測(cè)時(shí),利用高斯核函數(shù)要優(yōu)于多項(xiàng)式核函數(shù)。下面是具體地使用不同核函數(shù)時(shí),取所有樣本點(diǎn)到正常點(diǎn)的測(cè)試樣本的平均值(Mean)作為異常閾值與取使得F1-score不等于1的最大值對(duì)應(yīng)的測(cè)試點(diǎn)的距離作為異常閾值(Best)的F1-score結(jié)果對(duì)比。
表1 不同核函數(shù)下取Mean與Best作為異常 閾值的F1-score結(jié)果
通過(guò)觀察圖表發(fā)現(xiàn),縱向來(lái)看,無(wú)論利用什么核函數(shù),當(dāng)選取測(cè)試集到正常點(diǎn)的平均距離(Mean)作為異常閾值進(jìn)行判斷時(shí)的識(shí)別率都比選取Best作為異常閾值的F1-score分?jǐn)?shù)低。橫向來(lái)看,僅看多項(xiàng)式函數(shù)時(shí),最佳F1-score為取參數(shù)d
=3時(shí),獲得最高的F1-score分?jǐn)?shù)91.45%,隨后,隨著參數(shù)的增加,F(xiàn)1-score分?jǐn)?shù)逐漸減少,但是,若取γ
=1的高斯核作為核函數(shù),則模型的F1-score分?jǐn)?shù)要遠(yuǎn)遠(yuǎn)超過(guò)任何參數(shù)下的多項(xiàng)式核函數(shù)的模型F1-score分?jǐn)?shù),達(dá)到了96.27%。這表明使用γ
=1的高斯核作為核函數(shù)時(shí)的模型的性能比任何參數(shù)下的多項(xiàng)式核函數(shù)的模型的性能都好。綜上所述,在利用核零空間算法進(jìn)行異常檢測(cè)時(shí),選取一個(gè)合適的核函數(shù)以及定義一個(gè)最佳的異常判別閾值,對(duì)模型的結(jié)果有很大的影響。在對(duì)乳腺癌數(shù)據(jù)集進(jìn)行異常檢測(cè)時(shí),選取高斯核函數(shù)進(jìn)行非線性映射無(wú)疑是要優(yōu)于多項(xiàng)式核函數(shù)的。
γ
=1的高斯核作為核函數(shù)時(shí)的模型的F1-score分?jǐn)?shù)比任何參數(shù)下的多項(xiàng)式核函數(shù)的模型的F1-score分?jǐn)?shù)都高,并且不同異常閾值下的F1-score分?jǐn)?shù)也不同,充分證明了運(yùn)用核零空間算法進(jìn)行乳腺癌異常檢測(cè)的有效性。未來(lái)如何通過(guò)建立更加有效的核函數(shù),選取更加合適的異常閾值從而實(shí)現(xiàn)更高的識(shí)別率,加快大數(shù)據(jù)集的運(yùn)行速度仍然是一個(gè)值得深入研究的問(wèn)題。