于 超,王 璐,程道文
(1.長春工業(yè)大學(xué)人文信息學(xué)院,吉林 長春 130122;2.長春工業(yè)大學(xué)應(yīng)用技術(shù)學(xué)院,吉林 長春 130012;3.長春工業(yè)大學(xué)基礎(chǔ)科學(xué)學(xué)院,吉林 長春 130012)
作為當(dāng)前信息決策領(lǐng)域的重要組成的圖像數(shù)據(jù)挖掘技術(shù)被大量地應(yīng)用于醫(yī)學(xué)影像輔助診斷、地質(zhì)與海洋資源勘探、衛(wèi)星圖像分析等多種領(lǐng)域.[1]紋理特征、決策樹、分類規(guī)則和人工神經(jīng)網(wǎng)絡(luò)等技術(shù)是目前比較常用的圖像數(shù)據(jù)挖掘方法.[2-4]如能量、熵、慣性矩、局部平穩(wěn)和相關(guān)系數(shù)等紋理描述受外界影響較小,能夠直觀反映圖像灰度空間分布特征的紋理,在宏觀和微觀結(jié)構(gòu)兩方面較為準(zhǔn)確地描述了圖像的特性.[5-8]因此,在圖像分析與輔助決策中,上述因素能夠起到非常大的作用.醫(yī)學(xué)影像種類繁多,作為其重要組成部分的CT圖像在輔助診斷中起到關(guān)鍵作用.但是其紋理特征的數(shù)據(jù)量極大,如果對其數(shù)據(jù)進(jìn)行直接挖掘,效率不高,準(zhǔn)確率也有限.因此,本文提出了一種利用圖像降階結(jié)合Apriori算法對醫(yī)學(xué)圖像紋理特征進(jìn)行挖掘的模型,將醫(yī)院信息系統(tǒng)(HIS)中病患特征與降階處理后病患醫(yī)學(xué)圖像紋理特征相融合,通過剪枝技術(shù)建立關(guān)聯(lián)規(guī)則庫,采用規(guī)則庫中的規(guī)則對醫(yī)學(xué)圖像進(jìn)行信息挖掘.
對于表達(dá)醫(yī)學(xué)圖像特別是CT圖像這類無規(guī)則圖像中的隨機(jī)紋理,需要的模板維數(shù)和個數(shù)都會非常大,在這種情況下,數(shù)據(jù)挖掘的空間對比于規(guī)則紋理來說將會極其復(fù)雜.因此,如果直接抽取圖像紋理特征來對此類醫(yī)學(xué)影像進(jìn)行圖像特征挖掘,其復(fù)雜度會非常高,效率也很低.假定圖像m×m的區(qū)域內(nèi)有G種灰度值,則該區(qū)域會產(chǎn)生m2G個項(xiàng),則減少項(xiàng)的數(shù)量就會直接減少搜索空間[9],從而提高未來的挖掘效率.而減小該區(qū)域內(nèi)項(xiàng)的方法是縮小m值和降低區(qū)域內(nèi)灰度個數(shù)G.本文按通行的計(jì)算機(jī)圖像降階處理方式所采用的灰度降階公式為
h=g×N/max_gray×(max_gray/N).
(1)
其中:max_gray為區(qū)域內(nèi)像素最大灰度值,N指將圖像降為N階,g為圖像原始灰度值,h為降階后圖像對應(yīng)的灰度值.通過文獻(xiàn)[10]的研究結(jié)果表明,將圖像降為4階后,基本未影響到圖像的細(xì)節(jié)信息,而圖像的視覺感受也十分接近原圖像.因?yàn)轶w現(xiàn)圖像紋理特征的高頻特征信息并不會隨著圖像的降階處理而受到影響,所以在此基礎(chǔ)上,將圖像降為4階,可以大大地減少挖掘空間,為后續(xù)的紋理特征提取與挖掘提供方便.
統(tǒng)計(jì)法和頻譜法是兩種主要的紋理特征提取與分析方法,本文應(yīng)用灰度共生矩陣提取降階后圖像的紋理特征信息.[11-12]灰度共生矩陣中有相關(guān)度特征、信息理論特征、統(tǒng)計(jì)特征以及紋理特征共4類14個特征參數(shù)包含著圖像紋理信息[13].根據(jù)文獻(xiàn)[13]的研究,本文選取了局部平穩(wěn)、能量、相關(guān)系數(shù)、慣性矩和熵這5個表達(dá)紋理特征能力較強(qiáng)的參數(shù).局部平穩(wěn)計(jì)算公式為
(2)
L(d,θ)反映了圖像紋理的平穩(wěn)性,即圖像區(qū)域內(nèi)變化的趨勢.該值越大,表明在區(qū)域內(nèi)圖像的紋理變化越小,而且紋理均勻[13].能量計(jì)算公式為
(3)
E(d,θ)反映了圖像紋理的精細(xì)度,該值越小,表明區(qū)域內(nèi)圖像的紋理精細(xì)度越高[13].
相關(guān)系數(shù)計(jì)算公式為:
(4)
C(d,θ)即反映了區(qū)域內(nèi)圖像的灰度共生矩陣行與列的線性相關(guān)性,又反映了區(qū)域內(nèi)圖像紋理的均勻程度[13].慣性矩計(jì)算公式為
(5)
I(d,θ)是灰度共生矩陣的二次統(tǒng)計(jì)量,反映了圖像紋理的溝紋深淺度,直接反映了某個像素值及其領(lǐng)域像素值的亮度對比情況.即該值越大,圖像的溝紋越深,對比度越強(qiáng),視覺效果更清晰.[13]熵的計(jì)算公式為
(6)
H(d,θ)是區(qū)域圖像的信息度量,其值越大,表明了圖像非均勻程度和復(fù)雜度越高,隨機(jī)度和噪聲越大.[13]
所采集的幾類紋理特征值為數(shù)值型特征,如需進(jìn)行關(guān)聯(lián)特征挖掘,需要將其轉(zhuǎn)換為特征屬性.本文采用了數(shù)值型特征值預(yù)處理方式.
假定有一數(shù)值型特征項(xiàng)集合I={i1,i2,…,im},有一實(shí)數(shù)集合P,則特征屬性集合為Iv={〈ik,v〉∈I×P},數(shù)值型特征項(xiàng)ik具有屬性v,表示為元組〈ik,v〉.由于ik可分為數(shù)值型數(shù)據(jù)和范疇性數(shù)據(jù),因而需進(jìn)一步處理特征屬性集合.IR={〈ik,l,u〉∈I×P×P|l≤u},如果ik為數(shù)值型數(shù)據(jù),則l≤u;如果ik為范疇性數(shù)據(jù),則l=u.當(dāng)數(shù)值型屬性ik具有[l,u]范圍的取值時表示為〈ik,l,u〉∈IR.當(dāng)X?IR時,attributes(X)表示為集合{x|〈x,l,u〉∈X},其中x為數(shù)值屬性項(xiàng).設(shè)[n1,n2]為特征值M的取值范圍,則其對應(yīng)的數(shù)值屬性集為{m|〈m,l,u〉k∈IR,l,u∈[n1,n2]}.對于[l,u]這一數(shù)值屬性值域區(qū)間的劃分,首先結(jié)合特征值的性質(zhì)與實(shí)驗(yàn)數(shù)據(jù),確定[n1,n2]這個特征值的取值范圍,然后根據(jù)特征值自身的特點(diǎn)將該取值范圍劃分成相等的若干個區(qū)間.按照如上原則,最終得到IR這一數(shù)值屬性集合,即特征集合(見表1).
表1 特征值屬性集合及區(qū)域劃分
本文提出的圖像挖掘數(shù)據(jù)庫的建立:結(jié)合醫(yī)院信息系統(tǒng)中的病患病史信息、病患自然信息以及前面抽取出的圖像紋理特征信息,將這些信息以事物的形式存入數(shù)據(jù)庫中.用(CTID;LayID;i1,i2,…,in;j1,j2,…,jm;Class)作為數(shù)據(jù)庫記錄的存儲形式.其中:CTID為事務(wù)編號;LayID表示CT圖像層編號;ix為圖像的紋理特征信息;jx為醫(yī)院信息系統(tǒng)中的病患相關(guān)信息;Class表示圖像是否正常.為了更準(zhǔn)確地發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,抽取正常圖像的所有5種紋理特征信息和抽取病變圖像中病灶點(diǎn)區(qū)域的紋理特征信息建立數(shù)據(jù)庫.
應(yīng)用Apriori算法挖掘已建立的圖像挖掘數(shù)據(jù)庫中的數(shù)據(jù),從而建立提取的圖像紋理特征信息與圖像是否有病變這一結(jié)論之間的關(guān)聯(lián)規(guī)則.關(guān)聯(lián)規(guī)則的條件為特征數(shù)據(jù)庫中數(shù)據(jù)的合區(qū)形式,關(guān)聯(lián)規(guī)則的推出結(jié)論為圖像是否懷疑有病變特征,即圖像是否正常.
圖像紋理關(guān)聯(lián)規(guī)則的挖掘分為訓(xùn)練階段和測試階段[14-15].訓(xùn)練階段:用明確知道病變特征的分類圖像來訓(xùn)練系統(tǒng),合并圖像紋理特征以及病患自然特征,并將其存入圖像挖掘數(shù)據(jù)庫,應(yīng)用Apriori算法挖掘數(shù)據(jù)庫中滿足約束條件的關(guān)聯(lián)規(guī)則;測試階段:利用訓(xùn)練階段得到的關(guān)聯(lián)規(guī)則分類不知道是否有病變的CT圖像,一旦匹配,即可將CT圖像分類為正常和異常2種類型,進(jìn)而通過專家校驗(yàn)來判定關(guān)聯(lián)規(guī)則分類圖像的準(zhǔn)確性.
本文獲取關(guān)聯(lián)規(guī)則的方法:將圖像挖掘數(shù)據(jù)庫中的特征合區(qū)集合作為關(guān)聯(lián)規(guī)則的前件,將圖像所屬類別作為關(guān)聯(lián)規(guī)則的后件.將圖像挖掘數(shù)據(jù)庫中每2 000條數(shù)據(jù)作為一組,共抽取10組數(shù)據(jù)用來建立關(guān)聯(lián)規(guī)則的挖掘模型.將其最小支持度設(shè)置為25%,最小可信度設(shè)置為50%.用10組數(shù)據(jù)中的第1組數(shù)據(jù)作為測試樣例,其余的9組數(shù)據(jù)作為訓(xùn)練樣本,將訓(xùn)練得到的關(guān)聯(lián)規(guī)則應(yīng)用于第1組測試樣例,從而獲得一個圖像分類結(jié)果準(zhǔn)確率.將以上的過程重復(fù)10次,分別用于10組數(shù)據(jù),最后將10組測試的準(zhǔn)確率取均值,以此均值作為模型的綜合準(zhǔn)確率.
在實(shí)驗(yàn)過程中,先后使用了2組圖像樣本,第1組樣本中異常圖像(紋理特征反映有病變特性)和正常圖像所占比例為70%和30%,該組圖像訓(xùn)練出的關(guān)聯(lián)規(guī)則綜合準(zhǔn)確率為66.60%(見表2中結(jié)果1的準(zhǔn)確率);第2組樣本中將2種圖像的比例調(diào)整為1∶1,即各占50%,該組圖像訓(xùn)練出的關(guān)聯(lián)規(guī)則綜合準(zhǔn)確率提升為77.68%(見表2中結(jié)果2的準(zhǔn)確率).但這個準(zhǔn)確率仍然不滿足醫(yī)學(xué)輔助診斷的要求.為了提高準(zhǔn)確率,對第2組平衡數(shù)據(jù)訓(xùn)練得到的規(guī)則集合使用對關(guān)聯(lián)規(guī)則進(jìn)行剪枝處理的方法,通過剪枝,提出規(guī)則中影響判定準(zhǔn)確率的噪音,具體剪枝方式如下:
(1) 若存在2條規(guī)則,其前件相同但是結(jié)論卻相反,則將這兩條規(guī)則同時從關(guān)聯(lián)規(guī)則庫中刪除.
(2) 若存在規(guī)則a與規(guī)則b.(ⅰ)兩條規(guī)則的前件條件不同但是結(jié)論相同;(ⅱ)規(guī)則a的前件條件是規(guī)則b前件條件的子集.則在滿足如下條件之一的情況下,在關(guān)聯(lián)規(guī)則庫中保留規(guī)則a,刪除規(guī)則b.
(a)規(guī)則b的可信度低于規(guī)則a;
(b)規(guī)則a與規(guī)則b的可信度相同,規(guī)則b的支持度低于規(guī)則a;
(c)規(guī)則a與規(guī)則b的支持度與可信度均相同,規(guī)則b的前件條件多于規(guī)則a.
按照上述規(guī)則對第2組平衡數(shù)據(jù)訓(xùn)練得到的關(guān)聯(lián)規(guī)則集合進(jìn)行剪枝處理之后,新的關(guān)聯(lián)規(guī)則庫綜合判斷準(zhǔn)確率為88.74%(見表2中結(jié)果3的準(zhǔn)確率),與原有的關(guān)聯(lián)規(guī)則庫相比,準(zhǔn)確率有了一定的提升,也基本滿足了醫(yī)學(xué)輔助診斷的要求.
表2 關(guān)聯(lián)規(guī)則庫準(zhǔn)確率對比表
結(jié)合自然語言可以將關(guān)聯(lián)規(guī)則庫中的規(guī)則按照一定醫(yī)療診斷結(jié)論予以解釋.
(1) 關(guān)聯(lián)規(guī)則:0<能量<0.3≥圖像異常.
規(guī)則解釋:紋理特征值中的能量主要反映了圖像的平滑度,反映了灰度分布在一定范圍內(nèi)連續(xù)變化的情況,能量越低則紋理平滑度越高.基于以上原則,可以解釋為當(dāng)一幅肝部CT圖像紋理特征中的能量值在(0,0.3)這一區(qū)間上時,肝部表面紋理粗糙,有纖維化的可能.
(2) 關(guān)聯(lián)規(guī)則:0.70<局部平穩(wěn)<0.74&&0<相關(guān)系數(shù)<0.1≥圖像正常.
規(guī)則解釋:當(dāng)一幅CT圖像排列規(guī)律較強(qiáng),同時局部均勻程度又介于0.7~0.74這一區(qū)間時,可以得出圖像正常這一結(jié)論.
在進(jìn)行規(guī)則挖掘時,最小置信度和最小支持度是2個重要參數(shù),例如定義“0.70<局部平穩(wěn)<0.74&&0<相關(guān)系數(shù)<0.1≥圖像正?!钡闹С侄葹镾,置信度為C,則S=0.70<局部平穩(wěn)<0.74&&0<相關(guān)系數(shù)<0.1≥圖像正常/數(shù)據(jù)庫中全部圖像;C=0.70<局部平穩(wěn)<0.74&&0<相關(guān)系數(shù)<0.1≥圖像正常/0.70<局部平穩(wěn)<0.74&&0<相關(guān)系數(shù)<0.1的圖像,要求C≥0.5并且S≥0.25.
按照上述方式對關(guān)聯(lián)規(guī)則庫中的規(guī)則進(jìn)行解釋,得出的結(jié)論見表3.
表3 關(guān)聯(lián)規(guī)則解釋的部分結(jié)論
借助數(shù)據(jù)挖掘方法在圖像中的應(yīng)用,提出了一種利用圖像降階結(jié)合Apriori算法的對醫(yī)學(xué)圖像紋理特征進(jìn)行挖掘的模型.將醫(yī)院信息系統(tǒng)(HIS)中病患特征與病患的醫(yī)學(xué)圖像紋理特征相融合,通過剪枝技術(shù)建立關(guān)聯(lián)規(guī)則庫,采用規(guī)則庫中的規(guī)則對醫(yī)學(xué)圖像進(jìn)行了信息挖掘.實(shí)驗(yàn)結(jié)果表明,依靠本方法挖掘的關(guān)聯(lián)規(guī)則能夠很好地表達(dá)紋理,并對醫(yī)療輔助診斷起到了一定的幫助.未來將進(jìn)一步對關(guān)聯(lián)規(guī)則進(jìn)行擴(kuò)充,用更多的數(shù)據(jù)訓(xùn)練挖掘規(guī)則并改進(jìn)算法,進(jìn)一步提高關(guān)聯(lián)規(guī)則輔助判斷的準(zhǔn)確率.