牛琳 張雨薇 張露馨
摘 要:運(yùn)用MATLAB軟件對(duì)乳腺癌X光片做預(yù)處理、特征提取、基于SVM算法的分類器識(shí)別及輔助診斷。經(jīng)反復(fù)實(shí)驗(yàn)完成紋理特征提取、核函數(shù)選取、參數(shù)優(yōu)化、樣本優(yōu)化等步驟,為影像學(xué)醫(yī)師的診斷預(yù)測提供一種便捷有效的輔助方式,減輕了醫(yī)生的工作量,提高了醫(yī)生的工作效率,降低漏診誤診的機(jī)率。
關(guān)鍵詞:乳腺癌X光片;輔助診斷;SVM算法;特征提取
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
1 引言(Introduction)
當(dāng)前,健康問題變得愈加備受關(guān)注,影響健康的因素有很多,例如各方面的壓力、飲食習(xí)慣、特殊環(huán)境影響等。正因如此,越來越多的女性,患上乳腺癌[1]。按照WHO 2014年報(bào)道,乳腺癌是中國女性最常見的癌癥,在全球范圍內(nèi),中國占據(jù)新診斷乳腺癌病例的12.2%,占據(jù)乳腺癌死亡的9.6%[2]。歐美國家顯然是這些年乳腺癌發(fā)病率篩查最為成功的國家,乳腺癌的病死率已經(jīng)逐年在下降。而在我國,乳腺癌的排查技術(shù)和早期預(yù)防乳腺癌疾病的意識(shí)不足,中國新發(fā)病例在全世界乳腺癌新發(fā)病例的占比為12%[3]。超聲檢查是乳腺疾病診斷中常規(guī)的檢查方式,在乳腺疾病超聲圖像中,進(jìn)行定量化分析是十分重要的,可以找出病變區(qū)域,輔助治療,減小誤差。對(duì)于乳腺疾病的超聲圖像,區(qū)別與診斷,主要依賴醫(yī)生的經(jīng)驗(yàn),由于沒有量化指標(biāo),而且有時(shí)判斷會(huì)出現(xiàn)誤差[4]。針對(duì)這些問題,國內(nèi)外學(xué)者提出了很多計(jì)算機(jī)輔助診斷系統(tǒng),以提高乳腺超聲圖像診斷的效率與正確率。計(jì)算機(jī)輔助診斷系統(tǒng)可為臨床醫(yī)生的診斷供給較為真實(shí)有效的輔助訊息,尤其是在提升乳腺癌診斷準(zhǔn)確率方面施展著重要的功能,是初期檢測乳腺癌的重要方式[5]。本文主要研究基于SVM算法的乳腺癌X光片輔助診斷系統(tǒng),運(yùn)用該系統(tǒng)能夠減少影像科醫(yī)師的工作量,提高其工作效率,縮小漏診誤診的幾率,為影像學(xué)醫(yī)師的診斷預(yù)測提供一種便捷有效的方式。同時(shí)結(jié)合影像學(xué)醫(yī)師豐富的經(jīng)驗(yàn)?zāi)芰梢杂行П苊饣颊咤e(cuò)過治療的最佳時(shí)間。
2 相關(guān)技術(shù)研究(Research on related technology)
2.1 特征提取研究
圖像的特征提取是模式識(shí)別算法中一個(gè)及其重要的部分,它的目的是用于量化目標(biāo)的重要特性,比如說圖像的紋理、灰度、亮度、邊緣、輪廓、形狀等都是相對(duì)于圖像的特征,在模式識(shí)別的算法中,被量化的圖像特征將作為智能算法機(jī)器學(xué)習(xí)的輸入,構(gòu)成特征空間,學(xué)習(xí)算法將在該特征的基礎(chǔ)上進(jìn)行學(xué)習(xí),進(jìn)而構(gòu)建所需的分類器模型[6]。
乳腺的特征提取一般有紋理特征、空間集方法提取乳腺腫塊特征、光學(xué)特征、多種圖像的底層全局特征、基于邊緣領(lǐng)域的乳腺腫塊的特征提取方法。
2.2 支持向量機(jī)(SVM)分類算法研究
計(jì)算機(jī)輔助診斷在臨床上對(duì)早期乳腺癌的檢測中起到很大的作用,常用的算法有:支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)分類、模糊邏輯分割、小波變換處理、統(tǒng)計(jì)學(xué)特征提取等,以及這幾種方法的結(jié)合智能算法處理方法[7]。
支持向量機(jī)(Support Vector Machine,SVM)是一種模式識(shí)別算法,它根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論,主要是VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理,在復(fù)雜的模型和學(xué)習(xí)的能力中探求最佳中性,以便達(dá)到最優(yōu)推行[8]。SVM的特點(diǎn)是解決小樣本的問題。
影響支持向量機(jī)分類方法的因素主要有:核函數(shù)的選取和參數(shù)的優(yōu)化。核函數(shù)包括徑向基函數(shù)、多項(xiàng)式函數(shù)、S形函數(shù)。主要的參數(shù)中懲罰因子的數(shù)值取值決定了支持向量機(jī)的準(zhǔn)確率。懲罰因子的數(shù)值越大就代表了對(duì)訓(xùn)練誤差值的懲罰越大[9]。當(dāng)它的值太小時(shí),會(huì)導(dǎo)致訓(xùn)練誤差較大;取值過大時(shí),雖然會(huì)降低誤差值,但會(huì)導(dǎo)致過度擬合的情況。
3 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)(System design and implementation)
3.1 系統(tǒng)總體設(shè)計(jì)
基于SVM算法的乳腺癌X光片輔助診斷系統(tǒng)主要分為四個(gè)模塊,分別是樣本圖像預(yù)處理、特征提取、分類器處理和診斷結(jié)果。具體的系統(tǒng)實(shí)現(xiàn)步驟為:首先是訓(xùn)練建模階段,導(dǎo)入待訓(xùn)練的乳腺癌X光片作為SVM分類器的訓(xùn)練樣本,對(duì)圖像進(jìn)行預(yù)處理,依據(jù)乳腺癌X光片特點(diǎn)提取紋理特征,用于SVM分類器訓(xùn)練,經(jīng)過反復(fù)調(diào)整參數(shù),優(yōu)化樣本等步驟,建立符合乳腺癌X光片分類的SVM模型。然后進(jìn)入測試模型階段,導(dǎo)入測試樣本,經(jīng)過圖像預(yù)處理、特征提取后在訓(xùn)練好的SVM模型中進(jìn)行分類判斷。系統(tǒng)流程圖如圖1所示。
3.2 乳腺癌X光片的預(yù)處理和特征提取模塊
超聲檢查是乳腺疾病診斷中常規(guī)的檢查方式,這樣的成像機(jī)制會(huì)在圖像上產(chǎn)生一些斑點(diǎn)狀的噪聲,也會(huì)造成圖像的亮度分布不均勻。圖像預(yù)處理的功能是除去圖像中無關(guān)的信息,尋找有價(jià)值的數(shù)值信息,增強(qiáng)信息的可檢測性,進(jìn)而提高特征提取、分類識(shí)別的準(zhǔn)確率。本文的圖像預(yù)處理采用中值濾波算法進(jìn)行圖像去噪。中值濾波法的優(yōu)點(diǎn):抑制效果很好,畫面的清晰度基本保持;缺點(diǎn):對(duì)高斯噪聲的抑制效果不是很好。中值濾波法圖像去噪效果如圖2所示。
得到消除噪點(diǎn)的圖像后,可以更清楚的觀察乳腺腫塊的大小和形狀,但有部分腫塊的邊緣比較模糊,無法直接進(jìn)行特征提取。此時(shí)需要通過圖像增強(qiáng)方法增強(qiáng)乳腺X光圖像的明暗度對(duì)比,使腫塊的邊緣更清晰,方便醫(yī)生觀察與計(jì)算機(jī)的特征提取。本文選擇了直方圖均衡化進(jìn)行圖像增強(qiáng),效果如圖3所示。
乳腺癌X光片中,識(shí)別腫塊可以通過觀察,一般局部相對(duì)較亮,形狀接近于橢圓狀,具有無明顯縫隙內(nèi)核的星芒狀物或?qū)嵸|(zhì)團(tuán)塊[10]。
乳腺癌的特征提取一般有紋理特征、空間集方法提取乳腺腫塊特征、光學(xué)特征、多種圖像的底層全局特征、基于邊緣領(lǐng)域的乳腺腫塊的特征提取方法。在本文中,使用乳腺的紋理特征作為圖像特征表示乳腺病灶區(qū)域,采用灰度共生矩陣方法提取紋理特征?;叶裙采仃嚸枋龅氖蔷哂心撤N空間位置關(guān)系的兩個(gè)像素的聯(lián)合分布。為了定義描述紋理的方法,前人使用過三種主要方法,本文所采納的是基于共生矩陣的紋理特征提取。
紋理提取的步驟如下:
(1)灰度級(jí)量化:依據(jù)人的視覺特性,通過部分較粗的紋理特性判定,能夠得到大多數(shù)圖像的相近指數(shù)。首先,對(duì)原始圖像質(zhì)量進(jìn)行壓縮,然后生成圖像共生矩陣。例如,級(jí)別分成16、32和64。通過訓(xùn)練發(fā)現(xiàn)16級(jí)的圖像特征提取的效果較為明顯。(2)特征值測定:本文選用能量、熵、慣性矩、相關(guān)度,四個(gè)紋理參考指標(biāo)。求能量、熵、慣性矩、相關(guān)度的均值和標(biāo)準(zhǔn)差作為最終八維紋理特征。(3)特征向量的歸一化:因?yàn)樯鲜鎏卣髦档娜≈捣秶幌嗤?,所以要?duì)這些特殊的值進(jìn)行歸一化處理。
由于需要提取特征的圖片數(shù)量較大,這里設(shè)置了批量提取特征的功能,可以一次性提取文件夾內(nèi)的所有圖片特征。使用循環(huán)函數(shù),對(duì)上述圖像處理到特征提取的步驟進(jìn)行循環(huán)。運(yùn)行結(jié)束后數(shù)據(jù)會(huì)生成一個(gè)Excel表格,存儲(chǔ)在文件夾中,提供給分類器那邊進(jìn)行分類處理。此部分系統(tǒng)操作界面,如圖4所示。
some pictures)
3.3 乳腺癌X光片的分類器訓(xùn)練模塊
提取乳腺X光片中的特征指標(biāo),以此輸入來訓(xùn)練SVM。本文使用林智仁教授提出的LIBSVM工具箱,進(jìn)行樣本圖片訓(xùn)練和預(yù)測。選擇徑向基函數(shù)作核函數(shù),是因?yàn)樗泻芏鄡?yōu)點(diǎn),例如:(1)具有非線性映射性質(zhì),可對(duì)數(shù)據(jù)非線性可分情況進(jìn)行處理。(2)可退化為線性核函數(shù),選取合適的核函數(shù)參數(shù)及適當(dāng)?shù)拇鷥r(jià)系數(shù),徑向基函數(shù)能發(fā)揮與線性核函數(shù)同樣的作用。(3)參數(shù)指標(biāo)符合需求,S形核函數(shù)與徑向基函數(shù)的算法體現(xiàn)也較為接近,而且挑選S形核函數(shù)需要探討有關(guān)的核函數(shù)參數(shù)[9]。
分類器處理模塊,包括導(dǎo)入訓(xùn)練樣本、調(diào)試參數(shù)、訓(xùn)練樣本圖像、測試樣本圖像,判斷預(yù)設(shè)標(biāo)準(zhǔn)和測試待測圖像幾個(gè)步驟。調(diào)試參數(shù)主要選擇核函數(shù)和核函數(shù)參數(shù)的優(yōu)化,使及其訓(xùn)練學(xué)習(xí)達(dá)到最優(yōu)值,測試樣本圖像準(zhǔn)確率,若樣本圖像測試結(jié)果優(yōu)良,則需進(jìn)行測試待測醫(yī)學(xué)圖像,否則還需調(diào)整優(yōu)化參數(shù)。
本訓(xùn)練建模選用最大分類正確率相對(duì)的懲罰因子c和核參數(shù)δ,用來支持向量機(jī)分類器,c取100,δ取1。
SVM訓(xùn)練界面如圖6所示。
4 實(shí)驗(yàn)結(jié)果(Experimental results)
本設(shè)計(jì)選用MATLAB 2017a軟件,系統(tǒng)運(yùn)行截圖如圖4和圖5所示。在訓(xùn)練建模過程中,共采集了180個(gè)志愿者的乳腺X光片,共32張正常乳腺X光片,以及148張乳腺腫瘤X光片。采用隨機(jī)抽取的方式選取乳腺X光片,將所有樣本180張圖片平均分為六組,前三組作為測試集(即每30張乳腺X光片為一組)剩下三組當(dāng)作訓(xùn)練組。使用交叉循環(huán)法反復(fù)訓(xùn)練六次,每次選出一個(gè)直接作為測試樣本,將六次的交叉循環(huán)辨別率的平均值作為實(shí)驗(yàn)結(jié)果。分類建模完成后,檢測150張待測圖片準(zhǔn)確率達(dá)到83.3%。
5 結(jié)論(Conclusion)
本文設(shè)計(jì)和實(shí)現(xiàn)了基于SVM算法的乳腺癌X光片輔助診斷系統(tǒng),該系統(tǒng)的判斷準(zhǔn)確率還可以從三方面進(jìn)一步提高。
(1)在模式識(shí)別的算法中,被量化的圖像特征將作為智能
算法學(xué)習(xí)的輸入,因此應(yīng)深入研究乳腺癌X光片的病理特征和圖像本身成像效果,進(jìn)一步提高圖像預(yù)處理和特征提取的質(zhì)量。
(2)在模式識(shí)別的算法方面可以考慮改進(jìn)參數(shù)的優(yōu)化方法以提高算法的效率。
(3)在模式識(shí)別中訓(xùn)練模型的性能與參與訓(xùn)練的樣本有直接的關(guān)系,因此提高訓(xùn)練樣本的數(shù)量,以及樣本的覆蓋范圍,能夠有效提高最終的判斷準(zhǔn)確性。
參考文獻(xiàn)(References)
[1] 王欣,連臻強(qiáng).中國乳腺癌篩查現(xiàn)狀和評(píng)價(jià)[J/CD].中華乳腺病雜志(電子版),2015,9(3):159-162.
[2] Fan L,Strasser-Weippl K,Li JJ,et al.Breast cancer in China[J].Lancet Oncol,2014,15(7):279-289.
[3] 張欣.基于統(tǒng)計(jì)模型的乳腺癌微鈣化病灶輔助檢測研究[D].西北大學(xué),2010.
[4] 章永來,史海波,尚文利,等.面向乳腺癌輔助診斷的改進(jìn)支持向量機(jī)方法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(8):2373-2376.
[5] 郗冬冬.基于人機(jī)智能融合的乳腺癌輔助診斷方法[D].杭州電子科技大學(xué),2015.
[6] 陽維.乳腺腫瘤的超聲圖像特征定量分析與良惡性識(shí)別[D].上海交通大學(xué),2009.
[7] 周悅.基于乳腺X線圖像的計(jì)算機(jī)輔助診斷方法研究[D].蘭州大學(xué),2014.
[8] 郝欣.基于乳腺癌X線腫塊影像的計(jì)算機(jī)輔助診斷技術(shù)研究[D].浙江大學(xué),2013.
[9] 王迪.在線和分解支持向量機(jī)學(xué)習(xí)算法研究[D].中國科學(xué)院大學(xué),2012.
[10] Cascio D,F(xiàn)auci F,Magro R,et al.Mammogram segmentation by contour searching and mass lesions classification with neural network[J].IEEE Transactions on Nuclear Science,2006,53(5):2827-2833.
作者簡介:
牛 琳(1978-),女,碩士,講師.研究領(lǐng)域:數(shù)據(jù)挖掘,信息管理系統(tǒng).
張雨薇(1995-),女,本科生.研究領(lǐng)域:信息管理系統(tǒng).
張露馨(1995-),女,本科生.研究領(lǐng)域:信息管理系統(tǒng).