趙宇
摘 要:隨著信息技術(shù)的不斷發(fā)展,醫(yī)療大數(shù)據(jù)的概念也逐漸被人類所熟知。通過(guò)對(duì)數(shù)據(jù)挖掘技術(shù)在乳腺癌各領(lǐng)域的研究現(xiàn)狀(乳腺癌基因研究、乳腺癌早期輔助檢查、力學(xué)藥物靶點(diǎn)識(shí)別、乳腺癌新中醫(yī)治療方法)的分析,展望數(shù)據(jù)挖掘技術(shù)應(yīng)用于乳腺癌領(lǐng)域的前景,為數(shù)據(jù)挖掘技術(shù)在乳腺癌疾病的研究提供新思路。
關(guān)鍵詞:數(shù)據(jù)挖掘;乳腺癌
一、前言
乳腺癌已成為當(dāng)前社會(huì)的重大公共衛(wèi)生問(wèn)題。全球乳腺癌發(fā)病率自20世紀(jì)70年代末開始一直呈上升趨勢(shì)。美國(guó)8名婦女一生中就會(huì)有1人患乳腺癌。中國(guó)不是乳腺癌的高發(fā)國(guó)家,但不宜樂(lè)觀,近年我國(guó)乳腺癌發(fā)病率的增長(zhǎng)速度卻高出高發(fā)國(guó)家1~2個(gè)百分點(diǎn)。
二、數(shù)據(jù)源
我們將使用來(lái)自UCI的乳腺癌診斷數(shù)據(jù)集,該乳腺癌數(shù)據(jù)包括569例乳腺細(xì)胞活檢樣本,每個(gè)樣本包含32個(gè)變量。其中id變量是樣本識(shí)別ID,diagnosis變量是目標(biāo)變量(M代表惡性,B代表良性)。其他30個(gè)變量都是由10個(gè)數(shù)字化細(xì)胞核的10個(gè)不同特征的均值、標(biāo)準(zhǔn)差和最大值構(gòu)成。這10個(gè)基本特征為:
三、數(shù)據(jù)探索和預(yù)處理
.3.1 ?數(shù)據(jù)的探索
首先,搜集數(shù)據(jù)集如下圖所示,由于數(shù)量問(wèn)題,只顯示其中部分,共計(jì)569個(gè)樣本,32個(gè)變量。
將整個(gè)數(shù)據(jù)集導(dǎo)入SPSS軟件中。
第一個(gè)變量為ID,無(wú)法為實(shí)際的模型構(gòu)建提供有用的信息,所以需要將其刪除。diagnosis變量是我們的目標(biāo)變量,我們首先統(tǒng)計(jì)一下其取值分布。觀察在我們的數(shù)據(jù)集中,惡性(M)和良性樣本(B)的分布情況。在正式建模之前需要將其進(jìn)行整數(shù)編碼,將良性(B)編碼為0,將惡性(M)編碼為1。
通過(guò)統(tǒng)計(jì)我們的569個(gè)樣本中,良性樣本(B)和陰性樣本分別有212個(gè),占比分別為62.7%和37.3%。其中作為示例,我們主要選取所有變量中的三個(gè):radius_mean,area_mean和smoothness_mean。
通過(guò)SPSS軟件生成圖形對(duì)三個(gè)變量進(jìn)行分析:觀察這三個(gè)變量的統(tǒng)計(jì)信息,發(fā)現(xiàn)它們的取值范圍不大一致。radius_mean取值范圍為6.981~28.110,area_mean取值范圍為143.5~2501.0,smoothness_mean取值范圍為0.05263~0.16340。不同變量的測(cè)量尺度不一致會(huì)影響K近鄰算法中的樣本距離計(jì)算。例如,如果上述三個(gè)變量直接參與距離計(jì)算,則area_mean變量將會(huì)對(duì)距離計(jì)算影響最大,從而會(huì)導(dǎo)致我們構(gòu)建的分類模型過(guò)分依賴于area_mean變量。在應(yīng)用K近鄰等涉及距離計(jì)算的算法構(gòu)建預(yù)測(cè)模型之前,需要對(duì)變量取值進(jìn)行標(biāo)準(zhǔn)化。常見的標(biāo)準(zhǔn)化方法有min-max標(biāo)準(zhǔn)化和Z-score標(biāo)準(zhǔn)化等。
3.2數(shù)據(jù)的標(biāo)準(zhǔn)化:
為了將自變量進(jìn)行min-max標(biāo)準(zhǔn)化,使用min_max_normalize函數(shù)。該函數(shù)輸入為數(shù)值型向量x,對(duì)于x中的每一個(gè)取值,減去x的最小值,再除以x中數(shù)值的取值范圍。結(jié)果如下可見所有的變量都已經(jīng)正確地標(biāo)準(zhǔn)化到0和1之間:
四、模型性能提升
4.1 測(cè)試不同k取值對(duì)模型效果的影響
我們將分別測(cè)試 k = 1,5,9,11時(shí)模型的效果。由于模型整體預(yù)測(cè)準(zhǔn)確率已經(jīng)很高。我們通過(guò)觀察假陰性(False Negative)和假陽(yáng)性(False Positive)的數(shù)目和正確率(Accuracy)來(lái)對(duì)比不同k取值下模型的效果。
可見,當(dāng) k = 5 時(shí),假陽(yáng)性數(shù)量最少,且假陰性數(shù)量?jī)H為1,正確率達(dá)到最高。當(dāng)然,這也只是在171個(gè)測(cè)試樣本上的結(jié)果。
參考文獻(xiàn)
[1]MOURADC,LOPEZMA G.An evaluation of imagedescriptors combined with clinical data for breast cancer diagnosis [J].Intemational Joumal of computer Assisted Radiology and Surgery,2013,8(4):561-57.
[2]張旭東,孫圣力,王洪超.基于數(shù)據(jù)挖掘的觸診成像乳腺癌智能診斷模型和方法[J].大數(shù)據(jù),2019,5(01):68-76.
[3]侯公楷.中醫(yī)藥防治乳腺癌進(jìn)展[J].遼寧中醫(yī)藥大學(xué)學(xué)報(bào),2016,18(05):249-253.
(作者單位:河北大學(xué) 生命科學(xué)學(xué)院)