趙聞平 陳旭 趙倩
【摘 ?要】目的:闡釋樸素貝葉斯在乳腺腫瘤診斷中的應(yīng)用原理,同時(shí)分析其診斷性能的變化特征;方法:把已經(jīng)確診的500個(gè)乳腺腫瘤病例分為訓(xùn)練樣本集合與檢驗(yàn)樣本,其中前400個(gè)樣本作為訓(xùn)練樣本集合,后100個(gè)樣本作為測(cè)試樣本。實(shí)驗(yàn)過(guò)程中,隨機(jī)從400個(gè)訓(xùn)練樣本集合中選擇一定數(shù)量的子集作為一次實(shí)驗(yàn)過(guò)程中的訓(xùn)練樣本以用于訓(xùn)練樸素貝葉斯診斷模型,然后用100個(gè)測(cè)試樣本來(lái)檢驗(yàn)?zāi)P偷脑\斷性能。結(jié)果:樸素貝葉斯診斷模型診斷正確率p與訓(xùn)練樣本數(shù)量N之間滿(mǎn)足指數(shù)函數(shù)p=-0.7515*N-0.4936+1.034(判定系數(shù)R2=0.7791)的關(guān)系;模型的診斷性正確率與訓(xùn)練樣本數(shù)量之間是正相關(guān)關(guān)系;當(dāng)訓(xùn)練樣本數(shù)量達(dá)到一定數(shù)量之后,樸素貝葉斯診斷模型的診斷性能趨于穩(wěn)定,診斷正確率的均值為98.45%、標(biāo)準(zhǔn)差為0.88%。結(jié)論:基于樸素貝葉斯的診斷模型作為輔助醫(yī)生進(jìn)行乳腺腫瘤診斷的工具具有很好的推廣應(yīng)用潛力。
【關(guān)鍵詞】樸素貝葉斯;乳腺腫瘤;機(jī)器學(xué)習(xí);醫(yī)學(xué)診斷模型
【中圖分類(lèi)號(hào)】R18 ? ? ?【文獻(xiàn)標(biāo)識(shí)碼】A ? ? ?【文章編號(hào)】1672-3783(2019)12-0019-02
乳腺腫瘤是女性健康的重要危害因子之一[1],早診斷、早發(fā)現(xiàn)是當(dāng)前醫(yī)療水平下唯一能降低乳腺腫瘤致死率的唯一方法。機(jī)器學(xué)習(xí)是研究如何讓計(jì)算機(jī)程序來(lái)模仿人類(lèi)學(xué)習(xí)與決策的一種新興交叉學(xué)科[2], 通過(guò)機(jī)器學(xué)習(xí)的方式對(duì)癌癥進(jìn)行研究,可以通過(guò)對(duì)現(xiàn)有的癌癥病例樣本進(jìn)行學(xué)習(xí),使計(jì)算機(jī)具有一定的決策能力后對(duì)未知的癌癥病例進(jìn)行智能判斷和評(píng)估,可以作出比醫(yī)生更為準(zhǔn)確的智能決策的同時(shí),還能降低因人為因素而造成的誤診、漏診[3-6],對(duì)乳腺腫瘤死亡率的降低有著極其重要的現(xiàn)實(shí)意義[6]。本文將以乳腺腫瘤診斷為例,系統(tǒng)性地闡釋樸素貝葉斯在醫(yī)學(xué)診斷中的應(yīng)用原理,并測(cè)試其在不同樣本數(shù)量下診斷性能的變化特征,并對(duì)其診斷性能的變化特征進(jìn)行深入探討,以期得到更普適、更具推廣性的結(jié)論。
1 方法與數(shù)據(jù)
1.1 樸素貝葉斯
樸素貝葉斯(Naive Bayes)發(fā)源于古典數(shù)學(xué)理論,是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的方法,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)[7]。樸素貝葉斯方法的輸出結(jié)果是概率性的,即它會(huì)計(jì)算出某個(gè)給定的樣本屬于每個(gè)類(lèi)別的概率,然后以概率最高的類(lèi)別作為分類(lèi)或者診斷的結(jié)果。比如在乳腺腫瘤診斷中,樸素貝葉斯方法會(huì)計(jì)算出某個(gè)病例分別屬于良性和惡性的概率,并把概率最大的作為診斷結(jié)果。樸素貝葉斯獲得這些概率的方式是借助于貝葉斯理論[7],貝葉斯理論的核心思想是:根據(jù)一個(gè)已發(fā)生事件的概率,計(jì)算另一個(gè)事件的發(fā)生概率。貝葉斯理論從數(shù)學(xué)上可以表達(dá)成這樣:
1.2 數(shù)據(jù)與實(shí)驗(yàn)設(shè)計(jì)
為了檢驗(yàn)樸素貝葉斯診斷模型在訓(xùn)練樣本數(shù)量不同的情況下其診斷性能的變化特征(也就是樸素貝葉斯診斷模型的穩(wěn)定性),本研究設(shè)置了系列實(shí)驗(yàn)。實(shí)驗(yàn)過(guò)程中,我們不斷變化訓(xùn)練樣本的數(shù)量,樣本數(shù)量從10個(gè)到400個(gè)依次變化,間隔大小為10個(gè),即系列實(shí)驗(yàn)中:第1輪實(shí)驗(yàn)所用的訓(xùn)練樣本的數(shù)量為10個(gè),第2輪實(shí)驗(yàn)所用的訓(xùn)練樣本的數(shù)量為20個(gè),依次類(lèi)推,最后1輪實(shí)驗(yàn)所用的訓(xùn)練樣本的數(shù)量為400個(gè)。每輪實(shí)驗(yàn)所用的訓(xùn)練樣本都是從訓(xùn)練樣本集合中隨機(jī)抽取出來(lái)的,而且每輪實(shí)驗(yàn)都重復(fù)開(kāi)展50次(注:這50次實(shí)驗(yàn)中,每次實(shí)驗(yàn)所用的訓(xùn)練樣本數(shù)量是一樣的,但是每次實(shí)驗(yàn)的訓(xùn)練樣本是從前400個(gè)病例中隨機(jī)挑選的)以減小因訓(xùn)練樣本的差異性所帶來(lái)的診斷模型的不確定性(即蒙特卡洛思想[8]),取這50次實(shí)驗(yàn)所得到的50個(gè)診斷正確率值的均值當(dāng)作本輪實(shí)驗(yàn)的診斷正確率。同時(shí),所有實(shí)驗(yàn)中,測(cè)試樣本的數(shù)量固定在100個(gè)不變,以觀察訓(xùn)練樣本數(shù)量變化的情況下診斷模型的診斷性能的變化特征。實(shí)驗(yàn)平臺(tái)為Windows10操作系統(tǒng),編程環(huán)境為Matlab2016a。
2 結(jié)果與分析
通過(guò)對(duì)樸素貝葉斯模型的診斷正確率與訓(xùn)練樣本數(shù)量進(jìn)行函數(shù)擬合,擬合結(jié)果表明兩者之間符合如下的指數(shù)函數(shù)關(guān)系:
3 討論與結(jié)論
樸素貝葉斯診斷模型是一種經(jīng)典的醫(yī)學(xué)診斷模型,用于判別樣本屬于特定類(lèi)的概率(比如在本文中用于診斷患者的乳腺腫瘤屬于良性或惡性的概率)。通過(guò)本研究我們發(fā)現(xiàn)樸素貝葉斯診斷模型的診斷正確率與模型訓(xùn)練樣本數(shù)量之間存在很高的正相關(guān)關(guān)系,隨著模型訓(xùn)練樣本數(shù)量的增加,樸素貝葉斯模型的診斷正確率也隨之得到提高。
此外,盡管樸素貝葉斯方法有一個(gè)根本的前提條件,即:假設(shè)特征條件獨(dú)立。這一假設(shè)盡管可以簡(jiǎn)化計(jì)算,但是在實(shí)際應(yīng)用中通常很難完全滿(mǎn)足,在這種情況下,模型的分類(lèi)或診斷性能就有可能受到影響。然而,在本研究中我們發(fā)現(xiàn),即便乳腺腫瘤的10個(gè)量化特征,即細(xì)胞核直徑、質(zhì)地、周長(zhǎng)、面積、光滑度、緊密度、凹陷度、凹陷點(diǎn)數(shù)、對(duì)稱(chēng)度、斷裂度之間可能不會(huì)完全滿(mǎn)足樸素貝葉斯方法所需的條件獨(dú)立性假設(shè),但是本研究中通過(guò)大訓(xùn)練樣本所得到的樸素貝葉斯診斷模型依然展現(xiàn)出了非常高的診斷正確率(診斷正確率的均值達(dá)到了98.45%),而且表現(xiàn)出了穩(wěn)定的診斷性能(標(biāo)準(zhǔn)差為0.88%)。
最后,鑒于在本研究中樸素貝葉斯診斷模型所表現(xiàn)出來(lái)的優(yōu)秀的診斷性能,因此,在有大量訓(xùn)練樣本的前提下,基于樸素貝葉斯方法的醫(yī)學(xué)診斷模型作為輔助醫(yī)生進(jìn)行醫(yī)學(xué)診斷的一種智能高效的診斷工具,具有很好的推廣應(yīng)用潛力。
參考文獻(xiàn)
[1] 左婷婷, 陳萬(wàn)青. 中國(guó)乳腺癌全人群生存率分析研究進(jìn)展[J]. 中國(guó)腫瘤臨床, 2016, 43(14):639-642.
[2] Ethem Alpaydin. Introduction to Machine Learning(3rd Edition)[M]. Prentice Hall of India,2014.
[3] 袁前飛. 基于支持向量機(jī)的癌癥診斷研究[D]. 重慶大學(xué), 2007.
[4] 王瓊芳. B超圖像的乳腺腫瘤計(jì)算機(jī)輔助診斷系統(tǒng)研究[D]. 四川師范大學(xué), 2009.
[5] 劉奕. 基于機(jī)器學(xué)習(xí)的癌癥診斷方法研究[D]. 湖北工業(yè)大學(xué), 2017.
[6] 霍雙紅. 基于機(jī)器學(xué)習(xí)的乳腺腫瘤識(shí)別[D]. 中北大學(xué), 2017.
[7] Horimoto K. Bayes Rule[M]. Springer New York, 2013.
[8] 尹增謙, 管景峰. 蒙特卡羅方法及應(yīng)用[J].物理與工程,2002,12(3):45-49.