使用K近鄰算法診斷乳腺癌

2020-10-21 12:24:09趙宇

大東方 2020年3期

趙宇

摘要：隨著信息技術(shù)的不斷發(fā)展，醫(yī)療大數(shù)據(jù)的概念也逐漸被人類所熟知。通過(guò)對(duì)數(shù)據(jù)挖掘技術(shù)在乳腺癌各領(lǐng)域的研究現(xiàn)狀（乳腺癌基因研究、乳腺癌早期輔助檢查、力學(xué)藥物靶點(diǎn)識(shí)別、乳腺癌新中醫(yī)治療方法）的分析，展望數(shù)據(jù)挖掘技術(shù)應(yīng)用于乳腺癌領(lǐng)域的前景，為數(shù)據(jù)挖掘技術(shù)在乳腺癌疾病的研究提供新思路。

關(guān)鍵詞：數(shù)據(jù)挖掘;乳腺癌

一、前言

乳腺癌已成為當(dāng)前社會(huì)的重大公共衛(wèi)生問(wèn)題。全球乳腺癌發(fā)病率自20世紀(jì)70年代末開始一直呈上升趨勢(shì)。美國(guó)8名婦女一生中就會(huì)有1人患乳腺癌。中國(guó)不是乳腺癌的高發(fā)國(guó)家，但不宜樂(lè)觀，近年我國(guó)乳腺癌發(fā)病率的增長(zhǎng)速度卻高出高發(fā)國(guó)家1～2個(gè)百分點(diǎn)。

二、數(shù)據(jù)源

我們將使用來(lái)自UCI的乳腺癌診斷數(shù)據(jù)集，該乳腺癌數(shù)據(jù)包括569例乳腺細(xì)胞活檢樣本，每個(gè)樣本包含32個(gè)變量。其中id變量是樣本識(shí)別ID，diagnosis變量是目標(biāo)變量（M代表惡性，B代表良性）。其他30個(gè)變量都是由10個(gè)數(shù)字化細(xì)胞核的10個(gè)不同特征的均值、標(biāo)準(zhǔn)差和最大值構(gòu)成。這10個(gè)基本特征為：

三、數(shù)據(jù)探索和預(yù)處理

.3.1 ?數(shù)據(jù)的探索

首先，搜集數(shù)據(jù)集如下圖所示，由于數(shù)量問(wèn)題，只顯示其中部分，共計(jì)569個(gè)樣本，32個(gè)變量。

將整個(gè)數(shù)據(jù)集導(dǎo)入SPSS軟件中。

第一個(gè)變量為ID，無(wú)法為實(shí)際的模型構(gòu)建提供有用的信息，所以需要將其刪除。diagnosis變量是我們的目標(biāo)變量，我們首先統(tǒng)計(jì)一下其取值分布。觀察在我們的數(shù)據(jù)集中，惡性（M）和良性樣本（B）的分布情況。在正式建模之前需要將其進(jìn)行整數(shù)編碼，將良性（B）編碼為0，將惡性（M）編碼為1。

通過(guò)統(tǒng)計(jì)我們的569個(gè)樣本中，良性樣本（B）和陰性樣本分別有212個(gè)，占比分別為62.7%和37.3%。其中作為示例，我們主要選取所有變量中的三個(gè)：radius_mean，area_mean和smoothness_mean。

通過(guò)SPSS軟件生成圖形對(duì)三個(gè)變量進(jìn)行分析：觀察這三個(gè)變量的統(tǒng)計(jì)信息，發(fā)現(xiàn)它們的取值范圍不大一致。radius_mean取值范圍為6.981～28.110，area_mean取值范圍為143.5～2501.0，smoothness_mean取值范圍為0.05263～0.16340。不同變量的測(cè)量尺度不一致會(huì)影響K近鄰算法中的樣本距離計(jì)算。例如，如果上述三個(gè)變量直接參與距離計(jì)算，則area_mean變量將會(huì)對(duì)距離計(jì)算影響最大，從而會(huì)導(dǎo)致我們構(gòu)建的分類模型過(guò)分依賴于area_mean變量。在應(yīng)用K近鄰等涉及距離計(jì)算的算法構(gòu)建預(yù)測(cè)模型之前，需要對(duì)變量取值進(jìn)行標(biāo)準(zhǔn)化。常見的標(biāo)準(zhǔn)化方法有min-max標(biāo)準(zhǔn)化和Z-score標(biāo)準(zhǔn)化等。

3.2數(shù)據(jù)的標(biāo)準(zhǔn)化：

為了將自變量進(jìn)行min-max標(biāo)準(zhǔn)化，使用min_max_normalize函數(shù)。該函數(shù)輸入為數(shù)值型向量x，對(duì)于x中的每一個(gè)取值，減去x的最小值，再除以x中數(shù)值的取值范圍。結(jié)果如下可見所有的變量都已經(jīng)正確地標(biāo)準(zhǔn)化到0和1之間：

四、模型性能提升

4.1 測(cè)試不同k取值對(duì)模型效果的影響

我們將分別測(cè)試 k = 1，5，9，11時(shí)模型的效果。由于模型整體預(yù)測(cè)準(zhǔn)確率已經(jīng)很高。我們通過(guò)觀察假陰性（False Negative）和假陽(yáng)性（False Positive）的數(shù)目和正確率（Accuracy）來(lái)對(duì)比不同k取值下模型的效果。

可見，當(dāng) k = 5 時(shí)，假陽(yáng)性數(shù)量最少，且假陰性數(shù)量?jī)H為1，正確率達(dá)到最高。當(dāng)然，這也只是在171個(gè)測(cè)試樣本上的結(jié)果。

參考文獻(xiàn)

[1]MOURADC，LOPEZMA G.An evaluation of imagedescriptors combined with clinical data for breast cancer diagnosis [J].Intemational Joumal of computer Assisted Radiology and Surgery，2013，8（4）：561-57.

[2]張旭東，孫圣力，王洪超.基于數(shù)據(jù)挖掘的觸診成像乳腺癌智能診斷模型和方法[J].大數(shù)據(jù)，2019，5（01）：68-76.

[3]侯公楷.中醫(yī)藥防治乳腺癌進(jìn)展[J].遼寧中醫(yī)藥大學(xué)學(xué)報(bào)，2016，18（05）：249-253.

（作者單位：河北大學(xué) 生命科學(xué)學(xué)院）