張敏輝,楊 劍
(1.成都師范學院 計算機科學學院,四川 成都 611130;2.電子科技大學成都學院 計算機學院,四川 成都 611130)
基于CT圖像的自動診斷是指通過模式識別技術對CT圖像中的病灶組織進行識別,從而輔助診斷的技術。針對CT圖像的自動診斷主要包括兩大步驟:感興趣區(qū)域(regions of interest,ROI)分割和病灶分類[1,2]。即首先利用基于閾值或聚類的技術將感興趣區(qū)域分離,再利用分類技術對每個ROI進行形態(tài)和灰度特征提取,標記病灶狀態(tài)。利用標記的ROI訓練分類器,并對新樣本中的ROI進行疾病狀態(tài)預測。
由于早期診斷在疾病預防中的出色效果,使得基于醫(yī)學圖像的自動診斷成為醫(yī)學及計算機科學中的熱點問題之一[3-6]。常用的CT圖像診斷方法包括前文所述的分類方法和聚類方法[3,4]。當前的研究重點在對兩類方法中的不同環(huán)節(jié)進行改進。例如陳侃等[5]助聚類方法將圖像分離出病灶部位和非病灶部位,再對未知樣本根據其到聚類中心的歐式距離進行歸類。這種方法由于大量依賴歷史標記,在臨床中難以獲得應用,與分類方法不同的是,聚類方法不依賴歷史樣本標記,可以直接針對圖像數據區(qū)分出不同類別。Alfonso等[6]直接采用聚類方法從ROI區(qū)域分離出病灶部位,但準確性不高。孫娟等[1]考慮病灶組織與非病灶組織數量的不均衡性,提出基于全權模糊聚類的病灶識別方法,在精度上獲得了一定提升。
然而,現有的模式分類方法將不同ROI視為各自獨立的區(qū)域,僅針對每個ROI的形態(tài)特征訓練分類器或進行聚類。這種方法難以對形態(tài)不規(guī)則的病灶組織加以區(qū)分,因此難以獲得理想的準確度。
針對這類問題,本文提出一種基于低秩優(yōu)化(low-rank optimization)[7]的病灶識別方法。它充分考慮到病灶組織在多幅樣本圖像中的多樣性特征:即多幅CT圖像中病人的正常組織部分通常保持穩(wěn)定,而病灶組織變化較大,形態(tài)各異。方法的主要思想是:首先將多幅醫(yī)療圖像按標準部位圖像進行配準(diffeomorphism)[8],映射到標準器官形狀,將校準后的圖像連接為一個矩陣。由于只有病灶組織在不同圖像中呈現變化,通過尋找矩陣的低秩成分和稀疏成分,可以分離出每幅圖像的病灶組織,從而可以將疾病診斷描述為一個低秩優(yōu)化問題,通過優(yōu)化方法分離出原始病灶組織。
實驗選取肺部圖像公開數據集LIDC 300張臨床CT圖像進行肺部結節(jié)識別,以判斷患者是否有肺部疾病。實驗結果顯示本文提出的方法相對于傳統(tǒng)的分類或聚類方法可以提高5%的診斷精度并大大提高診斷速度,表明該方法在早期診斷中的重要意義。
本文中,我們提出一種基于低秩優(yōu)化(low-rank optimization)的醫(yī)學圖像識別方法。它充分利用醫(yī)學影像中正常組織的低秩性和病灶組織的稀疏性,將問題表示為低秩優(yōu)化問題。通過優(yōu)化目標函數直接獲得圖像診斷結果。
令X=[x1,x2,…,xn] 表示輸入圖像連接的矩陣,其中xi={xi1,xi2,…xid} 為第i個圖像的像素灰度集合。將該矩陣表示為病灶部分和非病灶部分的疊加
X=Y+E
(1)
式中:Y——正常組織部分,E——病灶部分。
由于正常組織部分在多幅圖像之間變化很小,是一個低秩矩陣(low rank matrix)。而病灶組織由于在多幅圖像之間差異較大,并且占據較小的比重,因此是一個稀疏矩陣。
我們的目標變成在觀察矩陣X中尋找這樣的低秩矩陣Y和稀疏矩陣E,使兩者能合成原始矩陣,即
(2)
該形式是一個非凸形式,因此,我們可以將其松弛到一個用凸包(convex envelope)表示的形式
(3)
對式(3)進行優(yōu)化求解,得到的E即是所得的病灶圖像集合。
為了求解式(3)的優(yōu)化問題,我們首先將其中的等式約束轉化為懲罰項的形式,即
(4)
接下來,我們采用增廣拉格朗日乘子法(augmented Lagrange multiplier,ALM)求解上述優(yōu)化問題。
(5)
式中:U表示拉格朗日乘子,μ是一個正的標量。
對式(5)按照算法1求解最優(yōu)值,得到E*,即為所求病灶部位圖像集合。
算法1:基于ALM的算法求解式(4)
輸入: {醫(yī)學圖像集合X, 參數γ,ρ}
輸出: {病灶圖像集合E}
(1)初始化
μ0>0;ρ>1;k=0;
(2)重復直到收斂
2) 重復直到收斂:
//其中, S_u[x]=max(x-u,0);
j=j+1;
μk+1=ρμk;
k=k+1;
在有了上述質量模型的定義后,我們將介紹具體的診斷方法。圖1展示了整個識別方法的流程。首先對醫(yī)學影像庫的圖像進行校準,然后利用第2節(jié)介紹的低秩優(yōu)化方法對圖像的病灶部分和正常組織部分進行區(qū)分,最后分離出測試集對應的病灶圖像。
在預處理階段,對于給定的圖像與標準器官部位的圖像進行校準(diffeomorphism)。圖像校準是指對于原始圖像采用某種變形策略映射到標準的圖像上,使得兩種圖像在形態(tài)上吻合[8]。校準前的圖像由于儀器及拍攝者的差異,會出現不同形狀,通過校準后使得圖像歸一成一個形狀,而其中的各個部位不會增減。我們采用Ashburne提出的DARTEL流程[8]將圖像校準成標準部位圖像。
將校準后的灰度圖像(矩陣)按列拼接為向量,將每個向量逐一相連,形成一個矩陣X,利用算法1進行低秩優(yōu)化,分離后成為兩個矩陣,其中一個矩陣是正常組織的矩陣,另一個矩陣是病灶部位形成的矩陣。將兩部分矩陣分別還原成原始圖像,從而分離出其中的病灶組織圖像集。
由于低秩優(yōu)化得到的圖像集合既包含訓練數據又包含測試數據。因此將優(yōu)化得到的病灶組織圖像集按照原始拼接順序分離出測試集對應的病灶組織圖像,并作為最終輸出。
為了測試本文介紹的方法的效果,我們選取肺部圖像公開數據集LIDC(lung image database consortium)[9]進行肺結節(jié)檢測實驗,肺結節(jié)檢測是一種常見的肺部疾病診斷方法,它通過對肺部圖像中的肺結節(jié)進行模式識別,進而判斷患者是否有肺部疾病。實驗中,我們從該數據集中隨機抽取300幅圖像,按照5∶1的比例分為訓練集(250張圖像)和測試集(50張圖像),并用10倍交叉驗證檢驗模型的擬合效果。實驗中取參數λ=0.5,ρ=1.2。
為了衡量本文介紹的方法的準確度,我們評估4大指標:
(1)準確性(accuracy):所有檢測結果中,準確檢測出的樣本占所有樣本的比率
(2)敏感度(sensitivity):所有檢測結果中,準確檢測出的陽性樣本占所有陽性樣本的比率
(3)特異度(specificity):反映對正常樣本的檢測性能。表示為所有檢測結果中,檢測正常的樣本占所有真實正常樣本的比率
(4)假陽率(FPR):反映診斷的代價,表示為檢測結果中被錯誤檢測為病灶組織的正常樣本占所有非正常樣本的比率
其中,TP表示檢測出的真陽性病灶組織,FN表示未能檢測出的真陽性病灶組織,FP表示誤診為陽性的假陽性健康組織,TN表示真陰性健康組織。
另外,為評估方法的運行效率,我們比較不同算法在不同樣本數下的運行總時間。
我們將本文的方法與常用的醫(yī)學圖像診斷方法進行比較。分別是基于SVM的分類方法[4]和基于聚類的方法PWFCM[1]。
SVM:該方法采用支持向量機(support vector mac-hine)進行模式分類。首先檢測出感興趣區(qū)域,再對感興趣區(qū)域進行圖像特征提取。在特征提取階段采用Curvelet變換提取圖像紋理,把原始圖像分為34個子代。每個子代用Curvelet提取14個特征,分別是灰度均值、熵、能量、聚類趨勢、同質度、和的熵、差的熵、逆差矩、相關性、標準差、最大概率、慣量、和的均值、差的均值。最后將提取的特征訓練SVM模型進行模式分類。實驗采用徑向基函數作為核函數。
PWFCM:該方法在提取ROI后,對每個ROI提取6類特征,分別是ROI面積(像素個數)、圓形度(反映ROI接近圓形的程度)、似圓度、邊界離心率、與肺門距離、平均灰度值。接著給每個樣本及其特征分別賦予權值并引入隸屬度來約束收斂性,利用二次聚類策略對ROI進行聚類,從而對病灶部位進行分割。
表1列出了不同方法在不同評估指標下的性能對比。結果顯示本文方法比傳統(tǒng)的分類和聚類方法具有更高的敏感性和更低的假陽率,準確性平均提高了5%。這樣的結果表明,本文方法考慮到病灶組織在眾多樣本下的多樣性和稀疏性,可以有效地提高診斷精度,減少漏診和誤診,對早期疾病診斷有較大的臨床意義。
表1 不同方法在不同評估指標下的性能對比
表2列出了不同方法在不同樣本數下的運行時間對比。在不同樣本數下本文方法均比其它方法縮小超過一半的運行時間。表明本文方法相比于傳統(tǒng)的SVM和PWFCM方法有明顯的速度提升。
表2 不同方法的運行時間對比/毫秒
圖2顯示了兩個代表性肺結節(jié)檢測樣例。其中的白色標記表示算法發(fā)現的肺結節(jié)。這一類肺結節(jié)形狀不規(guī)則,甚至處于圖像邊緣,傳統(tǒng)方法如SVM難以將它們檢測出來,而本文的低秩優(yōu)化算法由于不依賴形狀特征,可以成功的將它們分離。
圖2 肺結節(jié)檢測樣例
對于低秩模型,矩陣的低秩屬性是否滿足對模型最后的分解結果有很大影響。因此圖像校準是否正確,將嚴重影響模型是否滿足低秩屬性。為了驗證圖像校準對低秩屬性的影響,本文從數據集中選取100張正常的肺部圖像進行圖像校準,并將校準后的圖像按照算法1進行低秩成分分析。由于正常肺部圖像沒有不規(guī)則的肺結節(jié)結構,因此低秩優(yōu)化后應該滿足低秩屬性,如果圖像校準有誤差,則結果中會出現較多的高秩成分。通過檢測結果中的高秩成分在整個圖像中的比例可以反映圖像校準對實驗結果的影響。實驗中我們統(tǒng)計算法得到的高秩成分所占的像素個數,實驗結果顯示,正常肺部圖像在經過本文算法后只出現3%的高秩成分。該結果表明,校準后的肺部圖像滿足正常部位低秩病變部位高秩的屬性,對疾病部位的檢測效果影響很小。
本文提出一種基于低秩優(yōu)化的CT圖像診斷方法,利用病變組織在眾多樣本中的稀疏性與動態(tài)性,將眾多CT圖像配準到標準圖像中,并連接為一個矩陣。通過低秩優(yōu)化尋找矩陣中的低秩成分和稀疏成分,直接分離出標準組織部分和病灶組織部分。實驗結果表明基于低秩優(yōu)化的方法相對傳統(tǒng)的分類和聚類方法可以將診斷精度提高5%。并大大提高了診斷速度。對于早期疾病診斷具有重要的意義。后續(xù)研究將針對更多圖像的局部特征設計新的低秩檢測算法。