酉 霞,陳 菲,賈小林,劉雨嬌,楊 勇
(1.西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川綿陽621010;
2.四川省綿陽市中心醫(yī)院,四川綿陽621000)
字典學(xué)習(xí)中字典尺度對DICOM圖像壓縮的影響
酉 霞1?,陳 菲1,賈小林1,劉雨嬌1,楊 勇2
(1.西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川綿陽621010;
2.四川省綿陽市中心醫(yī)院,四川綿陽621000)
隨著醫(yī)院數(shù)字化醫(yī)療進(jìn)程的加快,醫(yī)學(xué)影像的數(shù)據(jù)量日益增大,醫(yī)學(xué)影像資料的存儲空間和獲取速度受到很大的限制.文章在研究主流字典學(xué)習(xí)算法基礎(chǔ)上,提出使用不同尺度的MOD、K-SVD、ILS-DLA、RLS-DLA字典算法對DICOM圖像進(jìn)行壓縮存儲,以及恢復(fù)再現(xiàn)的方法.與經(jīng)典的JPEG和JPEG2000壓縮算法相比,字典學(xué)習(xí)算法壓縮和恢復(fù)效果較好,特別是采用較小尺度的字典時(shí),壓縮效果更為突出:當(dāng)壓縮比為20時(shí),采用4×4尺度的RLS-DLA字典,論文算法的峰值信噪比(PSNR)較JPEG算法高出7.8 dB,比JPEG2000算法高出1 dB.
字典學(xué)習(xí);圖像壓縮;DICOM圖像;字典尺度
隨著計(jì)算機(jī)硬件技術(shù)的發(fā)展,醫(yī)院能夠采用大量的數(shù)字成像設(shè)備進(jìn)行檢查,如,計(jì)算機(jī)X線檢查、計(jì)算機(jī)體層攝影(CT)檢查、磁共振(MR)成像檢查、數(shù)字超聲成像檢查等等,這些檢查使醫(yī)學(xué)數(shù)據(jù)量急劇上升.為了有效管理這些數(shù)據(jù),越來越多的醫(yī)院進(jìn)行了數(shù)字化的改造,數(shù)字化醫(yī)院的建立對影像歸檔及通信系統(tǒng)(Picture Archiving and Communication Systems,PACS)的需求不斷增加.PACS系統(tǒng)中存儲影像的文件都遵循DICOM 3.0標(biāo)準(zhǔn),為DICOM文件.通常對醫(yī)學(xué)圖像進(jìn)行無損壓縮,其恢復(fù)圖像較清晰,但壓縮比較低,僅為2.5倍左右[1].所以,研究出針對DICOM文件中的醫(yī)學(xué)圖像壓縮方法對PACS系統(tǒng)顯得尤為重要.
目前圖像壓縮標(biāo)準(zhǔn)有:JPEG和JPEG2000等方式.JPEG標(biāo)準(zhǔn)的正式名稱為:信息技術(shù)-數(shù)字壓縮和連續(xù)色調(diào)靜止圖像的編碼.其實(shí)際上是包括無損編碼模式的,但是在大多數(shù)產(chǎn)品中并不支持,典型使用的JPEG是一種基于離散余弦變換(DCT)的有損壓縮方法,其壓縮過程中,較高的壓縮比會使得圖像產(chǎn)生馬賽克失真. JPEG2000是在2000年為了取代原來的JPEG標(biāo)準(zhǔn)提出的圖像壓縮標(biāo)準(zhǔn).其采用離散小波變換(DWT),避免了JPEG采用的DCT變換造成的馬賽克失真;在數(shù)據(jù)編碼上采取與JPEG不同的思維,使用一樣的數(shù)據(jù)編碼可以使用多種手段解碼來得到不同質(zhì)量的圖像,從而增加了可擴(kuò)展性和可編輯性.但是,因其編碼的核心部分的算法,已經(jīng)被大量注冊專利,用JPEG 2000存在版權(quán)和專利的風(fēng)險(xiǎn),開發(fā)出免授權(quán)費(fèi)的商用編碼器是不太可能的.
1999年K.Engan等人提出了最優(yōu)方向法(MOD)[2],人們開始逐步探尋獲取字典的方法;2006年,M.Aharon等人提出K奇異值分解(KSVD)字典學(xué)習(xí)算法[3],因K-SVD在去噪、模式識別等的優(yōu)秀表現(xiàn),人們開始關(guān)注字典學(xué)習(xí)領(lǐng)域;2008年O.Bryt等人K-SVD算法用于人臉圖像壓縮[4],是第一次將稀疏表示和字典學(xué)習(xí)用于圖像壓縮的一個(gè)探索;2010年K.Skretting和K. Engan提出了遞推最小二乘字典學(xué)習(xí)算法(RLSDLA)[5],2011年,他們探索了RLS-DLA在自然圖像上的壓縮效果,并與K-SVD算法進(jìn)行對比[6],在最終效果中,取得了優(yōu)于JPEG2000的效果.在以上探討的過程中,只是針對自然圖像進(jìn)行研究,字典的原子均為8×8的方塊.本文針對醫(yī)學(xué)常見的DICOM格式的顱腦CT圖像,使用不同尺度的字典進(jìn)行壓縮對比.
本文第2部分先介紹圖像信息壓縮框架,然后介紹本文采用的字典學(xué)習(xí)的基本思想,最后給出壓縮效果的評價(jià)指標(biāo);第3部分是實(shí)驗(yàn)過程及實(shí)驗(yàn)結(jié)果分析;第4部分總結(jié)全文并提出進(jìn)一步研究的方向.
2.1基于不同尺度字典的圖像壓縮框架
不同尺度字典的圖像壓縮方案主要涉及字典學(xué)習(xí)、利用字典進(jìn)行壓縮和解壓縮.其中,字典學(xué)習(xí)也稱為字典訓(xùn)練,主要包括:
(1)對圖像的不同尺度(4×4、8×8、16× 16的圖像塊)的分解,得到不同尺度的圖像塊作為訓(xùn)練集;
(2)在訓(xùn)練集的基礎(chǔ)上,初始化字典;
(3)使用稀疏編碼算法得到初始的稀疏解矩陣,分別利用不同字典學(xué)習(xí)算法更新字典原子.
(4)重復(fù)(3),得到訓(xùn)練的字典.
利用字典進(jìn)行壓縮,主要包括以下3步:
(1)將帶壓縮的圖像信息進(jìn)行不同尺度的分解;
(2)使用稀疏編碼算法得到稀疏解矩陣,求解過程中,設(shè)置目標(biāo)峰值信噪比(PSNR);
(3)對稀疏解進(jìn)行熵編碼,得到壓縮圖像位流.
解壓縮的過程是壓縮過程的逆過程.壓縮和解壓縮的簡要流程如圖1所示.
圖1 圖像信息的壓縮和解壓縮過程Fig.1 Process of Image compression and decompression
2.2字典學(xué)習(xí)算法
字典學(xué)習(xí)主要需要通過訓(xùn)練集得到一個(gè)字典,信號通過字典和相應(yīng)的系數(shù)來表示.一個(gè)訓(xùn)練集B={bi∈RN}iM=1,字典學(xué)習(xí)中學(xué)習(xí)得到的字典D∈RN×K,需要表示的向量為X∈RK×M,重建的矩陣為=DW,重建的誤差為R=X-=X-DW,使得重建誤差R最小,使用成本函數(shù)f(·),這可以表述為最小化問題[5.7]:
通常,字典學(xué)習(xí)可以通過3步來實(shí)現(xiàn),分別為:
(1)初始化字典;
(2)保持已有字典D不變,求解稀疏解W;
(3)保持已有稀疏解W不變,更新字典D.
其中,在(2)中主要用到的求解稀疏解的算法有:匹配追蹤算法(MP)[8]、正交匹配追蹤算法(OMP)[9]、順序匹配追蹤(ORMP)[10]等.其中,MP是一種復(fù)雜度較低的貪婪算法:在每一次迭代求解過程中,先選擇與當(dāng)前誤差最相關(guān)的一個(gè)原子,其次基于該原子求解稀疏解對應(yīng)的元素值,最后根據(jù)求解得到的稀疏解更新重構(gòu)誤差R. OMP是MP的改進(jìn)算法,在選擇原子的過程中,使得當(dāng)前誤差與當(dāng)前所選的字典原子相互正交,這也正是OMP的由來.
在(3)中主要用到字典學(xué)習(xí)算法包括:最優(yōu)方向法(MOD)、K奇異值分解法(K-SVD)、迭代最小二乘法(ILS-DLA)[11]、遞推最小二乘法(RLSDLA)、在線字典學(xué)習(xí)法(ODL)[12]等.其中,MOD算法通過交替使用以上(2)和(3)步方式學(xué)習(xí)字典:在第k次迭代過程中,基于D(k-1)稀疏編碼每一個(gè)xi求解出對應(yīng)的ωi,并構(gòu)成稀疏解矩陣W(k);然后通過表達(dá)式(2)所示更新字典矩陣D.
與MOD算法每次迭代都更新整個(gè)字典D不同的是,K-SVD按原子亂序依次更新每個(gè)原子來更新整個(gè)字典D.ILS算法是MOD算法的擴(kuò)展,其將訓(xùn)練集分為無限制的塊、無限制的重疊的塊、受限制的重疊的塊進(jìn)行最小二乘迭代更新.RLS算法是在ILS算法的基礎(chǔ)上引入遺忘因子λ,使得其在遞推的過程中逐漸脫離初始化字典對最后結(jié)果的影響.
本文主要OMP算法求解稀疏解,選擇MOD、K-SVD、ILS-DLA、RLS-DLA四種字典學(xué)習(xí)算法在不同原子尺度下與JPEG和JPEG2000進(jìn)行實(shí)驗(yàn)對比.
2.3壓縮效果的評價(jià)指標(biāo)
實(shí)驗(yàn)評估指標(biāo)主要從圖像的客觀保真度和主觀保真度進(jìn)行評價(jià).
圖像客觀保真度常用一個(gè)指標(biāo)是峰值信噪比[13](Peak Signal to Noise Ratio,PSNR),其單位為d B.PSNR通常通過均方誤差(Mean Square Error,MSE)進(jìn)行定義,定義式(3),兩個(gè)m×n的單色圖像I和K,其中I是原圖,K是I經(jīng)過壓縮過后的圖,那么MSE定義為公式(4):
其中:MAXI是表示圖像點(diǎn)顏色的最大數(shù)值,本文中每個(gè)采樣點(diǎn)用8位表示,那么就是255.由式(3)和式(4)可知,PSNR值越大,就代表失真越少,圖像質(zhì)量越高.
本文在真實(shí)圖像上進(jìn)行圖像壓縮.實(shí)驗(yàn)采用綿陽市中心醫(yī)院提供的DICOM文件格式的顱腦CT圖像.先進(jìn)行預(yù)處理,提取圖像信息后,對圖像信息進(jìn)行字典學(xué)習(xí)和壓縮效果的比較.
3.1DICOM圖像預(yù)處理
DICOM文件是按照DICOM 3.0標(biāo)準(zhǔn)存儲的醫(yī)學(xué)文件,一個(gè)單獨(dú)DICOM文件包括一個(gè)文件頭(存儲有關(guān)病人的名字,掃描類型等信息)和圖像數(shù)據(jù)信息.DICOM圖像是指DICOM文件中的圖像數(shù)據(jù),本文研究的對象也正是其圖像數(shù)據(jù)信息.所以對于DICOM文件,石曉磊等[14]的處理方法,通過分解文件,得到需要進(jìn)行壓縮的圖像信息存為BMP格式.
3.2字典學(xué)習(xí)過程
實(shí)驗(yàn)選擇其中8幅BMP格式的圖像,如圖2.隨機(jī)選取其中的圖像塊,當(dāng)圖像塊大小為4× 4、8×8時(shí),每幅圖像選取1 500個(gè)圖像塊,一共12 000個(gè)圖像塊用于訓(xùn)練字典,圖像塊大小為16× 16時(shí),每幅圖像選取500個(gè)圖像塊,一共4 000個(gè)圖像塊用于訓(xùn)練字典.字典大小分別采用原子大小為4×4、8×8和16×16,字典原子數(shù)為600的字典,各個(gè)算法設(shè)置迭代次數(shù)為200次,使用OMP算法求解稀疏系數(shù).
圖2 用作字典學(xué)習(xí)的圖像Fig.2 Image for dictionary learning
圖3 4種4×4字典經(jīng)過200次迭代的結(jié)果Fig.3 Four 4×4 dictionary results after 200 iterations
經(jīng)過4種字典學(xué)習(xí),字典原子大小為4×4、8×8和16×16得到的字典的如圖3、圖4和圖5.
圖4 4種8×8字典經(jīng)過200次迭代的結(jié)果Fig.4 Four 8×8 dictionary results after 200 iterations
圖5 四種16×16字典經(jīng)過200次迭代的結(jié)果Fig.5 Four 16×16 dictionary results after 200 iterations
從生成的字典可以看出,各種字典學(xué)習(xí)算法得到的字典有較大區(qū)別:
(1)ILS-DLA算法在不同尺度下,對比其他算法,其獲取到更多的深色圖像塊作為字典原子的組成;
(2)RLS-DLA算法在不同尺度下獲取到的字典分布比較均勻,原子間差距不大;
(3)MOD算法獲取到的的字典原子間的差距比較大,每種尺度下都有明顯的深色區(qū)域和淺色區(qū)域,過度區(qū)域的原子較少;
(4)K-SVD算法在4×4的字尺度下,獲取到的字典原子間的差距最大,從圖中可以明顯看出有一部分基本都是由黑色組成,而在8×8和16× 16的尺度下,基本全是黑色組成的原子較少,并且后兩種尺度的字典較為相似.
3.3壓縮圖像的客觀保真度
對比實(shí)驗(yàn)使用JPEG、JPEG2000壓縮方法和字典學(xué)習(xí)的方法進(jìn)行.JPEG和JPEG2000壓縮利用MATLAB 2011b自帶的imwrite函數(shù)進(jìn)行實(shí)驗(yàn);字典學(xué)習(xí)參考Skretting K[6]的壓縮過程,通過設(shè)置不同的量化參數(shù)進(jìn)行實(shí)驗(yàn).本文展示32號圖(見圖8(a))進(jìn)行壓縮實(shí)驗(yàn),在實(shí)驗(yàn)的結(jié)果中,尺度為4×4和8×8的字典壓縮及JPEG、JPEG2000壓縮實(shí)驗(yàn)結(jié)果如圖6.在比特率為0.4 bpp時(shí)(壓縮比為20).尺度為16×16的各種字典壓縮圖像的PSNR在均24 dB以下,主觀評價(jià)圖像不可用,不在本文中列出.
圖6 不同方法壓縮結(jié)果Fig.6 Results of different compression methods
從圖6實(shí)驗(yàn)結(jié)果中可以看出:
(1)總體上使用4×4字典的壓縮效果優(yōu)于8× 8字典的壓縮效果.在低比特率(低于0.25 bpp)情況下,字典壓縮效果和字典尺度關(guān)系不大.
(2)使用4×4字典的壓縮效果明顯優(yōu)于JPEG,圖像的PSNR平均比JPEG高5 dB,并且接近JPEG2000,在相同比特率下RLS-DLA壓縮后圖像的PSNR比JPEG2000高1 dB.
(3)使用4×4字典的壓縮效果在低比特率(低于0.5 bpp)情況下,均優(yōu)于JPEG,圖像的PSNR平均比JPEG高2 d B,但是都不及JPEG2000.這是由于JEPG是采用的DCT變換,其在高壓縮比(即低比特率)情況下,會出現(xiàn)明顯的馬賽克失真,影響其峰值信噪比.而JPEG2000采用的是DWT變換,避免馬賽克失真,并且其采用復(fù)雜的編碼策略,使其取得優(yōu)異的壓縮效果.
就不同壓縮效果,進(jìn)一步對字典進(jìn)行分析.如圖7,縱坐標(biāo)表示每個(gè)原子像素的平均值,橫坐標(biāo)表示原子序號.從圖中可以看出當(dāng)尺度為4× 4比尺度8×8的字典原子之間的差距大.結(jié)合圖6,可以看出字典原子差距較大的時(shí)候,壓縮效果越好.特別是MOD算法,兩個(gè)尺度情況下,字典原子差距沒有其他3種算法的大,因此兩個(gè)尺度下壓縮效果接近.
圖7 各字典原子均值對比Fig.7 Contrast of each dictionary atomic mean
3.4壓縮圖像的主觀保真度
下面從主觀保真度的角度進(jìn)行分析.圖8是在壓縮比為20時(shí)(即比特率為0.4 bpp)時(shí),32號原圖(圖8(a))和JPEG、JPEG2000以及各個(gè)字典壓縮圖(圖片命名方式為字典名稱-字典尺度)對比.
從圖8可以看出,字典尺度為4×4和8×8時(shí),字典學(xué)習(xí)都能夠達(dá)到JPEG壓縮效果,可以很好保存原圖像的細(xì)節(jié),人眼幾乎不能分辨原圖和壓縮圖的區(qū)別.ILS-DLA-16和RLS-DLA-16解壓后的圖像亮度比JPEG2000高,更接近原始圖像.
圖8 各算法效果對比Fig.8 Subjective fidelity contrast of each algorithm
本文針對DICOM圖像,使用不同尺度的字典學(xué)習(xí)算法進(jìn)行圖像壓縮性能的分析和對比.實(shí)驗(yàn)結(jié)果表明:字典原子間差距較小,有較多過度類型原子的時(shí)候,字典學(xué)習(xí)的壓縮效果較好;利用字典學(xué)習(xí)對DICOM圖像進(jìn)行壓縮,能優(yōu)于現(xiàn)在使用的JPEG算法的壓縮效果.并且明字典尺度較小時(shí),壓縮效果較好:當(dāng)字典尺度在4×4時(shí),圖像壓縮和恢復(fù)效果明顯優(yōu)于JPEG,其中RLS-DLA的壓縮效果優(yōu)于JPEG2000.
本文研究證明了字典學(xué)習(xí)和稀疏表達(dá)在DICOM圖像壓縮領(lǐng)域有良好的表現(xiàn),對于DICOM圖像壓縮方法的應(yīng)用具有積極意義.而且論文研究成果為以下兩方面的研究奠定了基礎(chǔ):1)對DICOM圖像進(jìn)行多尺度字典壓縮方法的研究;2)對DICOM圖像中的感興趣區(qū)域進(jìn)行無損編碼,并與字典學(xué)習(xí)方法相結(jié)合,提高圖像壓縮的質(zhì)量.
[1] 李萍.適用于PACS系統(tǒng)的醫(yī)學(xué)圖像壓縮算法研究[D].鄭州:鄭州大學(xué),2013.
Li P.The study of compression method for medical image in PACS[D].Zhenzhou:Zhenzhou University,2013.(in Chinese)
[2] Engan K,Aase S,Husoy J.Method of optimal directions for frame design[C].IEEE International Conference on Acoustics,Speech and Signal Processing,Phoneix,USA,1999:2443-2446.
[3] Aharon M,Elad M,Bruckstein A.K-SVD:An algorithm for designing overcomplete dictionaries for sparse representation[J].IEEE Transactions on Signal Processing,2006,54:4311-4322.
[4] Bryt O,Elad M.Compression of facial images using the K-SVD algorithm[J].Journal of Visual Communication and Image Representation,2008,19(4):270-282.
[5] Skreting K,Engan K.Recursive least squares dictionary learning algorithm[J].IEEE Transactions on Signal Processing,2010,58(4):2121-2130.
[6] Skreting K,Engan K.Image compression using learned dictionaries by RLS-DLA and compared with K-SVD[C]. IEEE International Conference on Acoustics,Speech and Signal Processing,Prague,Czech Republic,2011: 1517-1520.
[7] 霍承富.超光譜遙感圖像壓縮技術(shù)的研究[D].合肥:中國科技大學(xué),2012.
Huo C F.Research on hyperspectral remote sensing image compression technique[D].Hefei:University of Science and Technology of China,2012.(in Chinese)
[8] Mallat S,Zhang Z.Matching pursuits with time-frequency dictionaries[J].IEEE Transactions on Signal Processing,1993,41(12):3397-3415.
[9] Pati Y,Rezaiifar R,Krislinaprasad P.Orthogonal matching pursuit:Recursive function approximation with applications to wavelet decomposition[C].Proceedings of the 27th Annual Asilomar Conference on Signals,Sistems and Computers,Asilomar Grounds,1993:40-44.
[10] Gharavi-Alkhansari M,Huang T S.A fast orthogonal matching pursuit algorithm[C].IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Seattle,1998:1389-1392.
[11] Engan K,Skretting K,Husoy J H.A family of iterative LS-based dictionary learning algorithms,ILS-DLA,for sparse signal representation[J].Digital Signal Process.,2007,17:32-49.
[12] Mairal J,Bach F,Ponce J,et al.Online dictionary learning for sparse coding[C].International Conference on Machine Learning,Montreal,Canada,2009:689-696.
[13] 張健,李宏升.基于圖論閾值算法的圖像分割研究[J].液晶與顯示,2014,29(4):592-597.
Zhang J,Li H S.Image mosaic research based on wavelet and rough set algorithm[J].Chinese Journal of Liquid Crystals and Displays,2014,29(4):592-597.(in Chinese)
[14]石曉磊,王明泉.DICOM圖像格式與BMP圖像格式的轉(zhuǎn)換[J].微計(jì)算機(jī)信息,2010,26:195-197. Shi X L,Wang M Q.Transformation of DICOMDigital Medical Image Format into BMP General Image Format[J]. Microcomputer Information,2010,26:195-197.(in Chinese)
Effects of dictionary scale on dictionary learning for DICOM image compression
YOU Xia1,CHEN Fei1,JIA Xiao-lin1,LIU Yu-jiao1,YANG Yong2
(1.School of Computer Science and Technology,Southwest University of Science and Technology,Mianyang 621010,China;
2.Mianyang Central Hospital,Mianyang 621000,China)
With the accelerated developing of hospital digital medical,the amount of medical imaging data grows dramatically,which affects the data storage space and access speed.This paper proposes a new design which uses different scales dictionaries of MOD,K-SVD,ILS-DLA,RLS-DLA for digital imaging and communications in medicine(DICOM)image compression storage and restore methods based on dictionary learning.Compared with the traditional algorithms JPEG and JPEG2000,the pro-posed method has better performance,especially when the dictionary scale is smaller.For example,when the compression ratio is 20,using 4×4 dictionary scale,the peak signal to noise ratio(PSNR)of the proposed method is 7.8 dB higher than that of JPEG,and 1d B than JPEG2000.
dictionary learning;image compression;DICOM image;dictionary scale
TP391.41
A doi:10.3788/YJYXS20153006.1045
1007-2780(2015)06-1045-07
酉霞(1990-),女,四川簡陽人,碩士研究生,主要研究方向:數(shù)字圖像處理,機(jī)器學(xué)習(xí).E-mail:youzi_2011@ yeah.net
陳菲(1974-),女,四川綿陽人,副教授,碩士研究生導(dǎo)師,主要研究方向:嵌入式系統(tǒng)技術(shù)及圖像處理.
賈小林(1975-),男,四川綿陽人,副教授,博士,主要研究方向:數(shù)據(jù)采集與識別技術(shù).
劉雨嬌(1991-),女,四川綿陽人,碩士研究生,主要研究方向:計(jì)算機(jī)視覺.
楊勇(1974-),男,四川綿陽人,主治醫(yī)師,學(xué)士,主要研究方向:影像技術(shù)方向.
2015-01-22;
2015-03-24.
國家自然科學(xué)基金面上項(xiàng)目(No.61471306);四川省科技廳項(xiàng)目(No.16ZC1720,No.2014JY0230);西南科技大學(xué)研究生創(chuàng)新基金(No:14ycxjj0058);四川省教育廳重點(diǎn)項(xiàng)目(No.12ZD1109);綿陽網(wǎng)絡(luò)融合工程實(shí)驗(yàn)室開放基金(No:12zxwk11)
Supported by National Natural Science Foundation of China(No.61471306);Sichuan Provincial Science and Technology Support Project(No.16ZC1720,No.2014JY0230);Postgraduate Innovation Fund Project by Southwest University of Science and Technology(No.14ycxjj0058);Major program of Education Department of Sichuan Province(No.12ZD1109);Open funding Program of Network Convergence Laboratory of Mianyang(No.12zxwk11)
?通信聯(lián)系人,E-mail:youzi_2011@yeah.net