董艷莉, 朱一峰(.朝陽(yáng)市衛(wèi)生學(xué)校實(shí)驗(yàn)中心護(hù)理組,遼寧 朝陽(yáng) 000;.朝陽(yáng)師范高等??茖W(xué)校教務(wù)處,遼寧 朝陽(yáng) 000)
乳腺腫瘤分類優(yōu)化算法研究①
董艷莉1, 朱一峰2
(1.朝陽(yáng)市衛(wèi)生學(xué)校實(shí)驗(yàn)中心護(hù)理組,遼寧 朝陽(yáng) 122000;2.朝陽(yáng)師范高等??茖W(xué)校教務(wù)處,遼寧 朝陽(yáng) 122000)
設(shè)計(jì)實(shí)現(xiàn)了乳腺腫瘤分類的優(yōu)化算法.(1)根據(jù)乳腺腫瘤灰度分布情況,設(shè)計(jì)實(shí)現(xiàn)了基于灰度共生矩陣的BP分類算法;(2)針對(duì)圖像分類信息較大等特點(diǎn),設(shè)計(jì)實(shí)現(xiàn)了基于主成分分析(PCA)的支持向量機(jī)(SVM)分類算法;(3)由于乳腺腫瘤種類繁多,在提取主成分特征的基礎(chǔ)上,利用歐式距離分類方法對(duì)乳腺腫瘤做進(jìn)一步細(xì)致分類.
乳腺腫瘤;圖像分割;特征提取;分類
乳腺癌是女性最常見的惡性腫瘤之一,早期檢測(cè)是預(yù)防乳腺癌的關(guān)鍵.而計(jì)算機(jī)輔助診斷隨著醫(yī)學(xué)影像數(shù)字化的發(fā)展逐步得到完善.乳腺腫瘤的特征一般可分為形態(tài)特征和紋理特征兩類.形態(tài)特征主要考察腫瘤的形狀、邊界光滑度等,對(duì)良性腫瘤具有較好的檢查率.紋理特征則反映了腫瘤區(qū)域與鄰近組織的關(guān)系等,對(duì)惡性腫瘤難獲得準(zhǔn)確邊界的特點(diǎn)十分有效.考慮到形態(tài)特征雖然直觀、受噪聲影響相對(duì)較小,但在識(shí)別惡性腫瘤時(shí)存在困難等特點(diǎn),本文選擇主成分特征和灰度共生矩陣為特征參數(shù),設(shè)計(jì)基于支持向量機(jī)和BP神經(jīng)網(wǎng)絡(luò)的乳腺腫瘤分類器,實(shí)驗(yàn)結(jié)果表明該方法可得到有效的乳腺腫瘤分類效果.
1988年,David Rumelhart,Geoffrey Hinton和RonaldWilliams提出了用于前向神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的BP算法[1],解決了多層網(wǎng)絡(luò)的學(xué)習(xí)問(wèn)題,促進(jìn)了神經(jīng)網(wǎng)絡(luò)的發(fā)展.
1.1實(shí)驗(yàn)設(shè)計(jì)
乳腺腫瘤形態(tài)各異,有的腫瘤邊緣模糊,有的伴有長(zhǎng)短不一的毛刺向外放射,這種形態(tài)特征對(duì)腫瘤邊界的提取代來(lái)巨大困難,從而影響腫瘤的分類識(shí)別[2].圖1給出了十例乳腺腫瘤影像圖,其中各圖分別為:(1)長(zhǎng)毛刺單純癌(3)長(zhǎng)毛刺實(shí)性癌(4)絨毛狀毛刺腫塊(5)神經(jīng)纖維瘤(10)圓形囊腫,其他圖像均為纖維瘤.本文實(shí)驗(yàn)以圖1為例根據(jù)灰度共生矩陣對(duì)圖像像素分布的敏感性,從中提取共生矩陣特征作為BP分類器輸入?yún)?shù)進(jìn)行識(shí)別.流程如圖2所示.
圖1 X線影像中腫瘤原始圖像
在不設(shè)定灰度共生矩陣計(jì)算方向時(shí)求取的特征參數(shù)為水平方向值,為了防止圖像方位變化對(duì)分類效果的影響,特征值的選取可以在0°方向、45°方向、90°方向(垂直方向)和135°方向進(jìn)行,在求取樣例的灰度共生矩陣并計(jì)算特征參數(shù)后,將其作為BP分類器的輸入?yún)?shù)進(jìn)行識(shí)別.
分類器設(shè)計(jì):以輸入向量維數(shù)為輸入層神經(jīng)元個(gè)數(shù),隱含層神經(jīng)元數(shù)目的選取本文采用第二種選擇方法進(jìn)行確定.實(shí)驗(yàn)是對(duì)乳腺腫瘤的良惡性進(jìn)行識(shí)別,結(jié)果中1為惡性腫瘤,0為良性腫瘤,所以輸出神經(jīng)元選用一個(gè)節(jié)點(diǎn)可以滿足要求.本實(shí)驗(yàn)在共生矩陣基礎(chǔ)上求取對(duì)比度、相關(guān)性、能量、均勻度和熵五個(gè)特征作為BP分類器的輸入?yún)?shù),當(dāng)取水平方向參數(shù)時(shí),分類器輸入層、隱含層和輸出層神經(jīng)元數(shù)目分別為[5,3,1];當(dāng)取四個(gè)方向19個(gè)特征參數(shù)作為分類器輸入?yún)?shù)時(shí),分類器各層神經(jīng)元數(shù)目為[19,5,1].實(shí)驗(yàn)步驟將在下節(jié)具體描述.
圖2 基于紋理的分類算法流程圖
1.2實(shí)驗(yàn)結(jié)果分析
由于共生矩陣的紋理特征有明確的意義,并且容易計(jì)算,則在圖像處理和分析過(guò)程中常被作為基本的特征[3].紋理特征可以很好的反映腫瘤區(qū)域與鄰近組織的關(guān)系,對(duì)惡性腫瘤難獲得準(zhǔn)確邊界的特點(diǎn)十分有效.本文充分考慮良惡性腫瘤的特點(diǎn),以圖1為例對(duì)基于灰度共生矩陣的BP分類算法進(jìn)行分析.由于良惡性腫瘤及其周邊組織在X線影像中差異較小,需要綜合多個(gè)紋理特征才能滿足較好分類效果.本實(shí)驗(yàn)以對(duì)比度、相關(guān)性、能量、均勻度和熵五個(gè)特征作為灰度共生矩陣參數(shù),如圖3所示,橫坐標(biāo)為10幅樣例圖標(biāo)號(hào),縱坐標(biāo)表示五個(gè)特征值的大小.
將圖3所示灰度共生矩陣參數(shù)值進(jìn)行歸一化處理后,根據(jù)上節(jié)所述方法確定BP分類器.訓(xùn)練結(jié)果如圖4(a)所示.由于分類結(jié)果受參數(shù)數(shù)量和準(zhǔn)確度的影響,為了提高識(shí)別率,將上述實(shí)驗(yàn)中一個(gè)方向的5個(gè)特征值進(jìn)行擴(kuò)充,分別在0°, 45°,90°和135°四個(gè)方向選擇特征值,然后對(duì)各組值求取均值和方差,得到每幅圖像的19個(gè)特征值.分類器輸入層神經(jīng)元格式調(diào)整為19個(gè),隱含層調(diào)整為5個(gè),結(jié)果如圖4(b)所示[4].
由圖4可以看出,針對(duì)同一組數(shù)據(jù),在相同的訓(xùn)練次數(shù)下,誤差率跟參數(shù)選取數(shù)量成反比.為了進(jìn)一步分析共生矩陣參數(shù)對(duì)分類器的影響,將兩次實(shí)驗(yàn)結(jié)果進(jìn)行一下對(duì)比,如圖5所示.其中紅色為五個(gè)特征的分類結(jié)果,藍(lán)色為19個(gè)特征的分類結(jié)果,橫坐標(biāo)為樣例圖序號(hào),縱坐標(biāo)1為惡性腫瘤標(biāo)識(shí),0為良性腫瘤標(biāo)識(shí),誤差棒長(zhǎng)度為仿真值與原值之差,從誤差棒的偏離程度可以明顯看出后者準(zhǔn)確率大大提高.由此可知,一幅圖像中各個(gè)方向的紋理特征對(duì)整幅圖像的確定都起著一定的貢獻(xiàn)作用.
SVM是基于統(tǒng)計(jì)學(xué)理論的學(xué)習(xí)方法[4],它通過(guò)構(gòu)造最優(yōu)超平面,使得對(duì)未知樣本的分類具有最優(yōu)的推廣能力.
PCA(主成分分析)是模式識(shí)別中最為有效的一種特征提取方法[5].其目的是用較少數(shù)量的特征對(duì)采集樣本進(jìn)行描述,并降低特征空間的維數(shù),同時(shí)還能保留所需要的識(shí)別信息.
SVM(結(jié)合支持向量機(jī))在處理小樣本、高維數(shù)及泛化性能方面的優(yōu)勢(shì),本文設(shè)計(jì)了一種計(jì)算機(jī)輔助識(shí)別乳腺良惡性腫瘤的新方法.首先對(duì)預(yù)處理后的ROI圖像利用主成分分析(PCA)方法進(jìn)行降維并提取特征,再將采集到的特征集利用SVM分類器識(shí)別,實(shí)驗(yàn)結(jié)果表明該方法比BP神經(jīng)網(wǎng)絡(luò)分類器有較高的識(shí)別率,是一種有效的腫瘤病變識(shí)別方法.
2.1乳腺病變特征提取及其分類
PCA在模式識(shí)別領(lǐng)域(尤其是人臉識(shí)別)應(yīng)用廣泛,本文結(jié)合腫瘤病變區(qū)域不易分割的特點(diǎn),將PCA應(yīng)用在乳腺病變性質(zhì)的識(shí)別上,利用ROI圖像的主向量建立識(shí)別模型,減少人為操作圖像的干擾因素,提高識(shí)別準(zhǔn)確性.
根據(jù)PCA方法得到的特征參數(shù)創(chuàng)建訓(xùn)練數(shù)據(jù)特征庫(kù),作為SVM分類器的輸入?yún)?shù)進(jìn)行識(shí)別.首先對(duì)樣本特征數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),目的是找到分類超平面的優(yōu)化參數(shù).然后選擇輸入向量映射核的類型,并計(jì)算核函數(shù)K(x,y).根據(jù)測(cè)試結(jié)果對(duì)所選擇的核和懲罰因子進(jìn)行調(diào)整,將最優(yōu)結(jié)果存入學(xué)習(xí)模型數(shù)據(jù)庫(kù),供預(yù)測(cè)數(shù)據(jù)識(shí)別使用.
2.2實(shí)驗(yàn)結(jié)果分析
本文將120例病變樣本隨機(jī)分為兩個(gè)相互獨(dú)立的集合,分別作為訓(xùn)練集和測(cè)試集,其中良性腫瘤76例,惡性腫瘤44例.通過(guò)PCA方法提取訓(xùn)練集特征,利用BP神經(jīng)網(wǎng)和SVM分別作為分類器,測(cè)試數(shù)據(jù)交替組合三次,實(shí)驗(yàn)結(jié)果如表1所示.
圖3 10幅樣例圖的特征值
圖4 特征值的BP分類訓(xùn)練結(jié)果
表1 BP分類器與SVM分類器性能比較
表1中FN(False Negative)表示假陰性,F(xiàn)P (False Positive)表示假陽(yáng)性[6];準(zhǔn)確率 =(TP+ TN)/(TP+TN+FP+FN),其中TP和TN分別表示惡性和良性被正確分類的數(shù)目;敏感性 = TP/(TP+FN);特異性 =TN/(TN+FP).
由表1可見,SVM分類器的識(shí)別率(96.12%)較BP神經(jīng)網(wǎng)絡(luò)分類器識(shí)別率(93.33%)高,在敏感性和特異性上也表現(xiàn)出較大的優(yōu)勢(shì).BP神經(jīng)網(wǎng)絡(luò)和SVM均屬于非線性分類器,但分類的基本原理有明顯的區(qū)別.BP網(wǎng)是運(yùn)用了反向誤差算法的多層前向感知器,而SVM是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,由核空間理論得知,可通過(guò)非線性映射把輸入向量映射到一個(gè)高維特征空間,通過(guò)構(gòu)造最優(yōu)超平面將未知樣本進(jìn)行分類.兩個(gè)分類器在算法上都采用了迭代運(yùn)算,這就意味著以較高的準(zhǔn)確率來(lái)犧牲時(shí)間代價(jià),但時(shí)間仍在可接受的范圍內(nèi),而且SVM較BP分類器耗時(shí)少一些.
醫(yī)學(xué)影像圖像中,由于人體自身的差異和病變種類的復(fù)雜性等原因,使得病變區(qū)域識(shí)別難度增大.在乳腺病變檢測(cè)中惡性腫瘤的分割是研究的難點(diǎn),為此,本文選擇PCA作為獲取特征參數(shù)的主要方法,然后分別以BP神經(jīng)網(wǎng)絡(luò)和SVM作為分類器進(jìn)行識(shí)別.
下面取10例72×60樣本(以圖1為例)對(duì)BP神經(jīng)網(wǎng)絡(luò)分類器和SVM分類器中的參數(shù)設(shè)置做進(jìn)一步說(shuō)明.表2中列出了BP神經(jīng)網(wǎng)絡(luò)和SVM分類器的訓(xùn)練參數(shù).在SVM分類器的訓(xùn)練過(guò)程中,當(dāng)懲罰因子調(diào)節(jié)到40時(shí),迭代次數(shù)27次,識(shí)別率達(dá)到100%.其中良性腫瘤支持向量數(shù)為7,惡性腫瘤支持向量數(shù)為3.隨著訓(xùn)練樣本數(shù)量的增加,SVM分類器的優(yōu)勢(shì)將進(jìn)一步顯現(xiàn).
表2 分類器功能參數(shù)比較
圖5 訓(xùn)練誤差比較圖
本文采用圖像處理中常用的距離法對(duì)病變的種類進(jìn)行細(xì)化.具體分類流程如圖7所示.
針對(duì)測(cè)試樣本,選擇相應(yīng)的PCA特征模板(即,根據(jù)樣本集求取的PCA特征空間),計(jì)算測(cè)試樣本的PCA向量,映射到特征空間,利用歐式距離法求取最接近的樣本類別.
本實(shí)驗(yàn)以炎性疾患、囊性乳腺病、囊腫3種類型為例,分別取每種類型樣本20例(由于同種類型的疾病在不同病例中的形態(tài)特征有所差別,通過(guò)增加同種疾病測(cè)試樣本的數(shù)量來(lái)擴(kuò)大識(shí)別范圍,提高準(zhǔn)確率)共60幅(20×3)創(chuàng)建數(shù)據(jù)庫(kù).選擇3種類型中前10例(10×3)樣本作為訓(xùn)練集,后10例(10×3)樣本作為測(cè)試集.對(duì)訓(xùn)練樣本求取主成分,構(gòu)成特征模板,然后將測(cè)試樣本通過(guò)主成分計(jì)算擴(kuò)張到樣本模板特征空間上,最后用歐式距離法求取最小距離,計(jì)算準(zhǔn)確率.由于主成分分析法是求取了圖像中貢獻(xiàn)大的特征向量進(jìn)行分析,忽略對(duì)整幅圖像作用較小的因素,從而在不影響識(shí)別效果的同時(shí),大大提高了識(shí)別速度.與原始圖像直接進(jìn)行距離分類相比,準(zhǔn)確率得到改善,結(jié)果如表3所示.
圖6 乳腺病變細(xì)致分類流程圖
表3 原始數(shù)據(jù)與PCA特征識(shí)別結(jié)果對(duì)比
由表3可以看出,特征提取后的圖像去掉了冗余信息,使識(shí)別率得到較大提高,但是識(shí)別效果不是特別理想,分析原因如下:
(1)樣本庫(kù)的建立需要進(jìn)一步標(biāo)準(zhǔn)化.由于乳腺腫瘤種類繁多,要想準(zhǔn)確識(shí)別特征需要在專業(yè)醫(yī)生的指導(dǎo)下搜集典型案例,建立包含詳細(xì)信息量的圖片樣本庫(kù).
(2)PCA方法可以較好的保留圖像的特征信息,弱化冗余信息,但在復(fù)雜環(huán)境下尚有不足. Scholkopf等人提出了KPCA(核主分量分析),它不僅能夠抽取非線性特征,而且具有更優(yōu)的識(shí)別結(jié)果.在PCA基礎(chǔ)上的獨(dú)立成分分析方法等都在應(yīng)用領(lǐng)域有不同程度的改進(jìn).因此,在乳腺腫瘤細(xì)致分類方面,需要根據(jù)具體病變的特點(diǎn)選擇更優(yōu)特征方法,在提高識(shí)別率方面還有很大空間.
(3)SVM分類器不僅可以作為兩類分類器,它還有很強(qiáng)的多分類能力,所以,可以嘗試將SVM的多分類功能應(yīng)用在病例細(xì)致分類方面,以提高識(shí)別率.
本文主要介紹了幾種適合乳腺腫瘤分類的有效方法.其中基于灰度共生矩陣的紋理特征能夠?qū)D像灰度分布很好的體現(xiàn)出來(lái),克服了惡性腫瘤邊界模糊,放射分布等難以通過(guò)幾何特征來(lái)提取的特點(diǎn),實(shí)驗(yàn)取得較好效果.基于PCA特征的SVM分類,首先利用PCA方法對(duì)病變區(qū)域進(jìn)行降維并提取圖像主要信息,再將采集到的特征集利用SVM分類器識(shí)別,分類效果與BP算法相比識(shí)別率較高.由于乳腺腫瘤種類復(fù)雜,在確定良惡性疾病性質(zhì)后,再根據(jù)提取出的PCA特征利用距離法做進(jìn)一步分類,得到更詳細(xì)病變信息.
[1]楊誼.斑點(diǎn)噪聲分布擬合的乳腺超聲病灶分割方法[J].中國(guó)體視學(xué)與圖像分析,2014,6(02):35-37.
[2]成鵬飛.Hough變換和區(qū)域分離-合并相結(jié)合的分割算法[J].西安郵電大學(xué)學(xué)報(bào),2013,25(03):150-153.
[3]蘇燕妮.乳腺腫瘤超聲圖像中感興趣區(qū)域的自動(dòng)檢測(cè)[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2010,18(02):305-307.
[4]曹穎,郝欣.基于自動(dòng)隨機(jī)游走的乳腺腫塊分割算法[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2011,20(10):15-18.
[5]林秋蘭.彩色多普勒超聲在乳腺腫瘤診斷中的應(yīng)用價(jià)值探討[J].中國(guó)醫(yī)學(xué)創(chuàng)新,2012,36(34):102-106.
[6]成楠.48例乳腺癌超聲表現(xiàn)與病理分型相關(guān)性探討[J].中外醫(yī)學(xué)研究,2015,24(14):1325-1327.
Research on the Optimal Algorithms of Breast Tumour Classification
DONG Yan-li1, ZHU Yi-feng2
(1.Nursing Group of Experimental Center,Chaoyang Health School,Chaoyang 122000,China;2.Dean's Office,Chaoyang Teachers College,Chaoyang 122000,China)
The optimal algorithms of breast tumor classification was presented as follows.(1)According to the gray distribution of breast tumor imaging,a BP neural network classification method was designed.(2)According to the characteristic of image information,an SVM classification method based on PCA was introduced. (3)For multiformity of breast tumor,an Euclidean distance classifier was used to do a further classification in the PCA feature space.
breast tumor;image segmentation;feature extraction;classification
TP391.41;R737.9
A
1008-1402(2015)06-0929-05
2015-10-30
董艷莉(1985-),女,遼寧朝陽(yáng)人,講師,從事護(hù)理及臨床教學(xué)研究.通訊作者:朱一峰(1983-),男,遼寧朝陽(yáng)人,講師,碩士,從事計(jì)算機(jī)教學(xué)研究.