• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      使用K近鄰算法診斷乳腺癌

      2020-10-21 12:24:09趙宇
      大東方 2020年3期
      關(guān)鍵詞:正確率數(shù)據(jù)挖掘良性

      趙宇

      摘 要:隨著信息技術(shù)的不斷發(fā)展,醫(yī)療大數(shù)據(jù)的概念也逐漸被人類所熟知。通過(guò)對(duì)數(shù)據(jù)挖掘技術(shù)在乳腺癌各領(lǐng)域的研究現(xiàn)狀(乳腺癌基因研究、乳腺癌早期輔助檢查、力學(xué)藥物靶點(diǎn)識(shí)別、乳腺癌新中醫(yī)治療方法)的分析,展望數(shù)據(jù)挖掘技術(shù)應(yīng)用于乳腺癌領(lǐng)域的前景,為數(shù)據(jù)挖掘技術(shù)在乳腺癌疾病的研究提供新思路。

      關(guān)鍵詞:數(shù)據(jù)挖掘;乳腺癌

      一、前言

      乳腺癌已成為當(dāng)前社會(huì)的重大公共衛(wèi)生問(wèn)題。全球乳腺癌發(fā)病率自20世紀(jì)70年代末開始一直呈上升趨勢(shì)。美國(guó)8名婦女一生中就會(huì)有1人患乳腺癌。中國(guó)不是乳腺癌的高發(fā)國(guó)家,但不宜樂(lè)觀,近年我國(guó)乳腺癌發(fā)病率的增長(zhǎng)速度卻高出高發(fā)國(guó)家1~2個(gè)百分點(diǎn)。

      二、數(shù)據(jù)源

      我們將使用來(lái)自UCI的乳腺癌診斷數(shù)據(jù)集,該乳腺癌數(shù)據(jù)包括569例乳腺細(xì)胞活檢樣本,每個(gè)樣本包含32個(gè)變量。其中id變量是樣本識(shí)別ID,diagnosis變量是目標(biāo)變量(M代表惡性,B代表良性)。其他30個(gè)變量都是由10個(gè)數(shù)字化細(xì)胞核的10個(gè)不同特征的均值、標(biāo)準(zhǔn)差和最大值構(gòu)成。這10個(gè)基本特征為:

      三、數(shù)據(jù)探索和預(yù)處理

      .3.1 ?數(shù)據(jù)的探索

      首先,搜集數(shù)據(jù)集如下圖所示,由于數(shù)量問(wèn)題,只顯示其中部分,共計(jì)569個(gè)樣本,32個(gè)變量。

      將整個(gè)數(shù)據(jù)集導(dǎo)入SPSS軟件中。

      第一個(gè)變量為ID,無(wú)法為實(shí)際的模型構(gòu)建提供有用的信息,所以需要將其刪除。diagnosis變量是我們的目標(biāo)變量,我們首先統(tǒng)計(jì)一下其取值分布。觀察在我們的數(shù)據(jù)集中,惡性(M)和良性樣本(B)的分布情況。在正式建模之前需要將其進(jìn)行整數(shù)編碼,將良性(B)編碼為0,將惡性(M)編碼為1。

      通過(guò)統(tǒng)計(jì)我們的569個(gè)樣本中,良性樣本(B)和陰性樣本分別有212個(gè),占比分別為62.7%和37.3%。其中作為示例,我們主要選取所有變量中的三個(gè):radius_mean,area_mean和smoothness_mean。

      通過(guò)SPSS軟件生成圖形對(duì)三個(gè)變量進(jìn)行分析:觀察這三個(gè)變量的統(tǒng)計(jì)信息,發(fā)現(xiàn)它們的取值范圍不大一致。radius_mean取值范圍為6.981~28.110,area_mean取值范圍為143.5~2501.0,smoothness_mean取值范圍為0.05263~0.16340。不同變量的測(cè)量尺度不一致會(huì)影響K近鄰算法中的樣本距離計(jì)算。例如,如果上述三個(gè)變量直接參與距離計(jì)算,則area_mean變量將會(huì)對(duì)距離計(jì)算影響最大,從而會(huì)導(dǎo)致我們構(gòu)建的分類模型過(guò)分依賴于area_mean變量。在應(yīng)用K近鄰等涉及距離計(jì)算的算法構(gòu)建預(yù)測(cè)模型之前,需要對(duì)變量取值進(jìn)行標(biāo)準(zhǔn)化。常見的標(biāo)準(zhǔn)化方法有min-max標(biāo)準(zhǔn)化和Z-score標(biāo)準(zhǔn)化等。

      3.2數(shù)據(jù)的標(biāo)準(zhǔn)化:

      為了將自變量進(jìn)行min-max標(biāo)準(zhǔn)化,使用min_max_normalize函數(shù)。該函數(shù)輸入為數(shù)值型向量x,對(duì)于x中的每一個(gè)取值,減去x的最小值,再除以x中數(shù)值的取值范圍。結(jié)果如下可見所有的變量都已經(jīng)正確地標(biāo)準(zhǔn)化到0和1之間:

      四、模型性能提升

      4.1 測(cè)試不同k取值對(duì)模型效果的影響

      我們將分別測(cè)試 k = 1,5,9,11時(shí)模型的效果。由于模型整體預(yù)測(cè)準(zhǔn)確率已經(jīng)很高。我們通過(guò)觀察假陰性(False Negative)和假陽(yáng)性(False Positive)的數(shù)目和正確率(Accuracy)來(lái)對(duì)比不同k取值下模型的效果。

      可見,當(dāng) k = 5 時(shí),假陽(yáng)性數(shù)量最少,且假陰性數(shù)量?jī)H為1,正確率達(dá)到最高。當(dāng)然,這也只是在171個(gè)測(cè)試樣本上的結(jié)果。

      參考文獻(xiàn)

      [1]MOURADC,LOPEZMA G.An evaluation of imagedescriptors combined with clinical data for breast cancer diagnosis [J].Intemational Joumal of computer Assisted Radiology and Surgery,2013,8(4):561-57.

      [2]張旭東,孫圣力,王洪超.基于數(shù)據(jù)挖掘的觸診成像乳腺癌智能診斷模型和方法[J].大數(shù)據(jù),2019,5(01):68-76.

      [3]侯公楷.中醫(yī)藥防治乳腺癌進(jìn)展[J].遼寧中醫(yī)藥大學(xué)學(xué)報(bào),2016,18(05):249-253.

      (作者單位:河北大學(xué) 生命科學(xué)學(xué)院)

      猜你喜歡
      正確率數(shù)據(jù)挖掘良性
      走出睡眠認(rèn)知誤區(qū),建立良性睡眠條件反射
      中老年保健(2022年6期)2022-08-19 01:41:22
      呼倫貝爾沙地實(shí)現(xiàn)良性逆轉(zhuǎn)
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      門診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      生意
      品管圈活動(dòng)在提高介入手術(shù)安全核查正確率中的應(yīng)用
      基層良性發(fā)展從何入手
      生意
      甲狀腺良性病變行甲狀腺全切除術(shù)治療的效果分析
      遂宁市| 思茅市| 寻甸| 浪卡子县| 壶关县| 松溪县| 黎川县| 山阳县| 兴和县| 新建县| 儋州市| 灵武市| 新和县| 山丹县| 米脂县| 尚志市| 鄂温| 郎溪县| 谢通门县| 鹤壁市| 西平县| 翁牛特旗| 红河县| 商城县| 仁寿县| 宜昌市| 定西市| 从化市| 项城市| 金秀| 吴旗县| 达孜县| 商城县| 曲水县| 邹城市| 南陵县| 漾濞| 柳林县| 嘉禾县| 萝北县| 綦江县|