李 晨,王 巍
(1.西安工業(yè)大學(xué)北方信息工程學(xué)院 陜西 西安 710032;2.航天恒星空間技術(shù)應(yīng)用有限公司 陜西 西安 710077)
在醫(yī)學(xué)圖像處理中,雖然支持向量機(jī)已應(yīng)用于圖像分割,并取得了較好的分割效果,但是沒(méi)有考慮到相關(guān)應(yīng)用領(lǐng)域的先驗(yàn)知識(shí),對(duì)受噪聲影響的醫(yī)學(xué)圖像,其分割效果還有待于進(jìn)一步提高?;谙闰?yàn)知識(shí)的支持向量機(jī)可以較好地解決噪聲的影響,它將對(duì)象中已知的一部分機(jī)理提取出來(lái),作為先驗(yàn)知識(shí),然后將其與樣本數(shù)據(jù)相結(jié)合,共同建立可靠的樣本模型。
先驗(yàn)知識(shí),是指對(duì)于學(xué)習(xí)任務(wù)除訓(xùn)練數(shù)據(jù)外可得到的所有信息,涵蓋范圍很廣。例如在字符自動(dòng)識(shí)別中最難區(qū)分的兩個(gè)字符是0(零)和O(歐),因?yàn)樗麄兊念愰g距離最近,識(shí)別的誤差一般集中在這兩個(gè)字符中。而由先驗(yàn)知識(shí)可以知道在某些位置只可能是特定的字符,例如在一串字母中的字符是O(歐)的可能性要遠(yuǎn)遠(yuǎn)大于是0(零)的可能性,反之,在如果前后都是阿拉伯?dāng)?shù)字則該字符更加可能是0(零)。
目前人工智能領(lǐng)域的學(xué)者將先驗(yàn)知識(shí)引入SVM分類模型中,主要有以下2個(gè)研究方向:1)如何選擇特定背景知識(shí)下的核函數(shù);2)直接把先驗(yàn)知識(shí)引入SVM分類器中,包括直接在訓(xùn)練樣本中引入先驗(yàn)知識(shí)屬性,然后統(tǒng)一通過(guò)SVM表示,文中是基于后者的研究。
在原始的訓(xùn)練數(shù)據(jù)集中,除了數(shù)據(jù)屬性之外還設(shè)置一個(gè)標(biāo)明該樣本所屬類別的類標(biāo)簽,把每個(gè)樣本屬于該類的置信度作為一個(gè)連續(xù)屬性加到樣本的屬性中。最終SVM分類面產(chǎn)生這樣的意義:如果某一樣本的置信度越大,那么它離分類面的距離相對(duì)于沒(méi)有考慮置信度時(shí)的距離應(yīng)該要大,反之就要小。即在實(shí)驗(yàn)中要考慮的距離是一種帶權(quán)的距離,而這個(gè)權(quán)值正是樣本的置信度。如圖1所示:黑點(diǎn)和白點(diǎn)分別表示了兩類樣本,而它們的面積則代表樣本屬于該類的置信度的大小。從圖1可知,對(duì)于置信度較大的樣本,它離分類面的距離也應(yīng)該相對(duì)較大。
圖1 引入置信度后的支持向量示意圖Fig.1 Schematic diagram of support vector which introduced in confidence level
置信度反映在對(duì)支持向量到分類面的間隔的重新定義、對(duì)傳統(tǒng)SVM算法中兩個(gè)樣本進(jìn)行線性約束優(yōu)化拉格朗日系數(shù),以及每一次優(yōu)化后的誤差計(jì)算工作上。在第一部分中,目標(biāo)是通過(guò)解析方法對(duì)兩個(gè)樣本進(jìn)行帶置信度的優(yōu)化。設(shè)x1和x2是兩個(gè)被選中進(jìn)行優(yōu)化的樣本。由于要滿足線性約束,也就是它們對(duì)應(yīng)的系數(shù)對(duì)(a1,a2)必須在一條直線上:
且滿足一個(gè)區(qū)域約束,也即正方形約束,因?yàn)槭擒涢g隔分類面的緣故,否則就是區(qū)間約束。g(v1)C≥a1≥0,g(v2)C≥a2≥0與傳統(tǒng)的SMO算法類似,可以從該約束條件得出a2更嚴(yán)格約束U≤a2new≤V,對(duì)于x1和x2是同類樣本,也就是說(shuō)y1=y2,有:
對(duì)于x1和x2是不同類樣本,也就是說(shuō)y1≠y2,有:
令 h(x)為目標(biāo)的分類超平面方程,則 h(x)可以表示如下:
則訓(xùn)練誤差E可以表示如下:
于是可以得到對(duì)于優(yōu)化后的系數(shù)表達(dá)式:
再考慮軟間隔要滿足的約束條件U≤a2new*≤V,有:
與傳統(tǒng)SVM類似,于是可以得到a1new的表達(dá)式:
醫(yī)學(xué)圖像在成像過(guò)程中,由于熱、電噪聲、磁場(chǎng)的不均勻性、射頻線圈、局部體效應(yīng)等諸多因素的影響,使醫(yī)學(xué)圖像中不同組織與結(jié)構(gòu)之間存在混迭現(xiàn)象。在處理樣本的不精確性時(shí),對(duì)不同的樣本賦予不同的置信度,使不同的樣本在重構(gòu)最優(yōu)超平面時(shí)有不同的貢獻(xiàn)。
圖2所示為兩個(gè)不同類中樣本之間緊密度的差別。從圖2(a)與(b)中可見(jiàn),樣本x到各自所在類中心之間的距離相等,如果僅依據(jù)距離來(lái)確定置信度,則兩者屬于各自類的置信度相同。然而,沒(méi)有考慮圖2(a)中樣本x與類中其它樣本之間的距離遠(yuǎn)小于圖2(b)中樣本x與類中其它樣本之間的距離這一實(shí)際情況,圖2(a)中樣本x可能為有效樣本,而圖2(b)中樣本x為野值的可能性非常大。事實(shí)上,圖2(a)中樣本x屬于所在類的置信度應(yīng)大于圖2(b)中樣本x屬于所在類的置信度。
圖2 兩個(gè)不同類中樣本之間緊密度差別示意圖Fig.2 Schematic diagram of tightness difference between two different kinds of samples
針對(duì)這種情況,提出了基于樣本緊密度的置信度確定方法,即在確定樣本的置信度時(shí),既要考慮樣本到所在類中心之間的距離,還要考慮樣本與類中其它樣本之間的關(guān)系,而樣本與類中其它樣本之間的關(guān)系可通過(guò)類中樣本的緊密度來(lái)反映。
由以上分析可知,基于緊密度的置信度的計(jì)算由兩部分構(gòu)成:
其中,
1)vi為樣本xi屬于所在類的置信度;
2)μd(xi)由下面 Zadeh定義的標(biāo)準(zhǔn) S形函數(shù)改造確定,反映樣本xi到所在類中心之間的距離。
其中,di為樣本與所在類中心之間的距離,由下式確定:
3)μk為樣本xi與所在類中心之間的模糊連接度,反映xi樣本與類中其它樣本之間的緊密度關(guān)系,其由下式確定:
文中實(shí)驗(yàn)所用的腦部圖片都是從brainWeb數(shù)據(jù)庫(kù)中下載,圖像大小為181×217像素,每片圖像的厚度為1 mm,T1加權(quán)的MRI圖像,20%的灰度非均勻性。為了驗(yàn)證改進(jìn)算法的可靠性和穩(wěn)健性,文中對(duì)不同噪聲圖像進(jìn)行實(shí)驗(yàn),如圖3所示。
分類結(jié)果見(jiàn)圖4所示。
過(guò)選擇不同的函數(shù)對(duì)3種不同噪聲級(jí)的圖片進(jìn)行了分類錯(cuò)誤率的統(tǒng)計(jì),詳見(jiàn)如表1、2、3所示。
由表1、2、3可以看出,在0%噪聲情況下,置信度函數(shù)與松弛標(biāo)準(zhǔn)函數(shù)之間在滿足3倍關(guān)系的時(shí)候分類誤差率最?。辉?%噪聲情況下,置信度函數(shù)與松弛標(biāo)準(zhǔn)函數(shù)之間在滿足4倍關(guān)系的時(shí)候分類誤差率最小;在9%噪聲情況下,置信度函數(shù)與松弛標(biāo)準(zhǔn)函數(shù)之間在滿足6倍關(guān)系時(shí)分類誤差率最小。
由此可以看出,在噪聲情況越大的情況下,增大一定量的松弛標(biāo)準(zhǔn)函數(shù)對(duì)于錯(cuò)分樣本能起到一定的抑制作用。但是置信度函數(shù)與松弛標(biāo)準(zhǔn)函數(shù)之間在滿足單調(diào)性的基礎(chǔ)上。
對(duì)3種噪聲圖像進(jìn)行的分類錯(cuò)誤率與傳統(tǒng)的支持向量機(jī)作比較詳如表4所示。
圖3 不同噪聲級(jí)別的原始圖Fig.3 Primitive graphs of different noise grade
圖4 不同噪聲級(jí)別圖像分割結(jié)果Fig.4 Results of different noise grade image segmentation
表1 0%噪聲圖像函數(shù)選擇與分類誤差率Tab.1 Noise image function selection and classification error rate in 0%
表2 3%噪聲圖像函數(shù)選擇與分類誤差率Tab.2 Noise image function selection and classification error rate in 3%
表3 9%噪聲圖像函數(shù)選擇與分類誤差率Tab.3 Noise image function selection and classification error rate in 0%
表4 不同噪聲級(jí)別分類誤差率Tab.4 Classification error rate in different noise grades
由表4可以看出,當(dāng)圖像中不含噪聲時(shí),基于先驗(yàn)知識(shí)的支持向量機(jī)和傳統(tǒng)支持向量機(jī)分類誤差率相差不多,當(dāng)圖像中含有噪聲時(shí),采用基于先驗(yàn)知識(shí)的支持向量機(jī)方法,其分類錯(cuò)誤率比采用傳統(tǒng)支持向量機(jī)方法的錯(cuò)誤率低,并且在噪聲越大,基于先驗(yàn)知識(shí)的支持向量機(jī)與傳統(tǒng)支持向量機(jī)分類誤差率差值越大。實(shí)驗(yàn)表明了基于先驗(yàn)知識(shí)的支持向量機(jī)具有良好的分割性能,對(duì)噪聲有較強(qiáng)的抵抗力。從圖4可以看出,基于先驗(yàn)知識(shí)的支持向量機(jī)分割效果比較清晰,信噪比較好,對(duì)噪聲具有較強(qiáng)的抑制性。
文中研究?jī)?nèi)容為基于先驗(yàn)知識(shí)的支持向量機(jī)在醫(yī)學(xué)圖像分割中的應(yīng)用,選擇了醫(yī)學(xué)圖像領(lǐng)域具有代表性的核磁共振圖像作為實(shí)驗(yàn)對(duì)象,取得的主要研究成果有以下幾個(gè)方面:
1)對(duì)支持向量機(jī)理論以及現(xiàn)有的基于先驗(yàn)知識(shí)的支持向量機(jī)進(jìn)行了深入的研究,提出改進(jìn)算法,即針對(duì)醫(yī)學(xué)圖像的特點(diǎn),確定了以樣本緊密度信息這一先驗(yàn)知識(shí)構(gòu)造置信度函數(shù)。
2)將改進(jìn)算法應(yīng)用于腦部核磁共振圖像分割中,對(duì)樣本采用交叉驗(yàn)證,實(shí)驗(yàn)結(jié)果表明改進(jìn)算法較傳統(tǒng)支持向量機(jī)有較好的分類能力,即使在9%的噪聲情況下也能得到較好的泛化準(zhǔn)確率。實(shí)驗(yàn)數(shù)據(jù)的獲取是引用了國(guó)外一種比較權(quán)威的算法評(píng)價(jià)方法,用以客觀地分析改進(jìn)算法。
[1]邊肇祺,張學(xué)工.模式識(shí)別[M].北京:清華大學(xué)出版社,2002.
[2]CHEN Chang-wen.Knowledge-based approach to volumetric medical image segment-ation[J].IEEE International Conference on Image Processing Los Alamitos,USA:IEEE,1994(3):493-497.
[3]Tuceryan M.Moment-based texture segmentation[J].Pattern Recognition Letters,1994,15(7):659-668.
[4]Sahbi H,Geman D.A hierarchy of support vector machines for pattern detection[J].Journal of Machine Learning Research,2006(7):27-29.
[5]Cristianini.支持向量機(jī)導(dǎo)論[M].李國(guó)正,王猛,曾華軍,譯.北京:電子工業(yè)出版社,2004.
[6]王磊.支持向量機(jī)學(xué)習(xí)算法的若干問(wèn)題研究 [D].成都:電子科技大學(xué),2007.