趙建偉,張敏淑,周正華,楚建軍,曹飛龍*
(1.中國計(jì)量學(xué)院 理學(xué)院,浙江 杭州 310018;2.嘉善加斯戴克醫(yī)療器械有限公司,浙江 嘉興 314100)
眾所周知,血液中的白細(xì)胞(White Blood Cell,WBC)對人體免疫功能起著重要的作用。血液中各類白細(xì)胞的數(shù)量及百分比在人類有疾病和無疾病的情況下是不同的,醫(yī)生經(jīng)常用這些基礎(chǔ)數(shù)據(jù)作為判斷疾病的種類和嚴(yán)重程度的標(biāo)準(zhǔn)。因此,研究白細(xì)胞的分類計(jì)數(shù)對醫(yī)學(xué)診斷有著重要的意義和價(jià)值。
通常,血液學(xué)家利用白細(xì)胞細(xì)胞質(zhì)的顆粒信息及形狀信息將白細(xì)胞分為顆粒細(xì)胞:中性粒細(xì)胞(neutrophils)、嗜酸性粒細(xì)胞(eosinophils)、嗜堿性粒細(xì)胞(basophils)和無顆粒細(xì)胞:單核細(xì)胞(monocytes)和淋巴細(xì)胞(lymphocytes)五類(見圖1)。鑒于細(xì)胞在不同時期的形態(tài)有很大的差別,本文中只考慮成熟時期的白細(xì)胞。
Fig.1 Five types of WBC圖1 五類白細(xì)胞示意圖
傳統(tǒng)的白細(xì)胞分類方法主要是醫(yī)護(hù)人員在顯微鏡下根據(jù)經(jīng)驗(yàn)進(jìn)行白細(xì)胞計(jì)數(shù)。該方法存在工作量大、主觀性強(qiáng)以及效率低等問題。隨著計(jì)算機(jī)和人工智能技術(shù)的不斷發(fā)展,基于圖像分析技術(shù)的白細(xì)胞自動識別法已成為臨床診斷的主要手段之一。它不僅可以解決上述人工計(jì)數(shù)方法存在的問題,而且具有圖片可顯示保存、以便于以后查驗(yàn)分類的優(yōu)點(diǎn)。
通常,白細(xì)胞自動識別技術(shù)主要包括以下幾個步驟:圖像采集、白細(xì)胞圖像的分割、特征提取和分類四個方面,其中特征提取和分類是白細(xì)胞自動識別技術(shù)的關(guān)鍵點(diǎn)和難點(diǎn)。因此,本文將在已分割好的白細(xì)胞圖像上重點(diǎn)研究細(xì)胞的特征提取和分類問題。
白細(xì)胞的特征大致可分為三大類:幾何特征(如面積、周長、圓形度和直徑等)、紋理特征(如不變矩、對比度和熵等)和顏色特征(如顏色分布直方圖等)。目前,許多文獻(xiàn)利用以上特征和分類器的組合對白細(xì)胞進(jìn)行分類。文獻(xiàn)[1]利用白細(xì)胞的面積、核質(zhì)比、模式譜及不變矩等特征并結(jié)合神經(jīng)網(wǎng)絡(luò)對白細(xì)胞進(jìn)行了五分類,其分類精度達(dá)到了75%。文獻(xiàn)[2]利用已有的幾何特征、紋理特征和顏色特征這三大類中的特征組成了164維的特征向量對白細(xì)胞進(jìn)行了分類,取得了一定的效果。但是該方法需要提取大量的特征,這樣會導(dǎo)致時間復(fù)雜性提高。文獻(xiàn)[3]先是利用圓度特征區(qū)分顆粒細(xì)胞與無顆粒細(xì)胞,然后利用細(xì)胞質(zhì)的顏色區(qū)分三類顆粒細(xì)胞以及利用核質(zhì)比區(qū)分兩類無顆粒細(xì)胞,其分類精度達(dá)到了75.59%。該方法的缺點(diǎn)是在利用圓度特征區(qū)分顆粒細(xì)胞和無顆粒細(xì)胞時,沒有充分利用顆粒信息及注意到單核細(xì)胞的細(xì)胞核形狀不規(guī)則等問題,導(dǎo)致單核細(xì)胞和顆粒細(xì)胞分類效果不高的問題。
針對上述問題,本文基于分層的思想,重新設(shè)計(jì)分層路線。首先提取白細(xì)胞中細(xì)胞核的分葉特征和圓形度特征,分出部分細(xì)胞核較圓的淋巴細(xì)胞,對數(shù)據(jù)進(jìn)行篩選以減少下面步驟錯分的個數(shù);其次對分葉特征和圓形度特征不明顯的細(xì)胞,提取對偶旋轉(zhuǎn)不變共生局部二值模式(PRICo LBP)紋理特征作為判定標(biāo)準(zhǔn),將它們分為顆粒細(xì)胞與無顆粒細(xì)胞;然后對顆粒細(xì)胞,利用PRICo LBP紋理特征區(qū)分出嗜堿性粒細(xì)胞、嗜酸性粒細(xì)胞和中性粒細(xì)胞;而對無顆粒細(xì)胞,則用圓形度與核質(zhì)比區(qū)分出淋巴細(xì)胞和單核細(xì)胞。實(shí)驗(yàn)表明,本文所提的方法比已有的分層方法在總體識別率上提高了十幾個百分點(diǎn),并且各類細(xì)胞的分類精度都有所提高。
本文根據(jù)五類白細(xì)胞的具體特征,基于分層的思想,重新設(shè)計(jì)了白細(xì)胞分類方法。該方法將白細(xì)胞的特征選擇分為三層:頂層利用分葉數(shù)及圓形度對白細(xì)胞進(jìn)行篩選;中層利用PRICo LBP特征作為顆粒信息將白細(xì)胞分為顆粒細(xì)胞和無顆粒細(xì)胞;底層對于顆粒細(xì)胞利用其顆粒信息提取PRICo LBP特征對其進(jìn)行三分類,而對于無顆粒細(xì)胞,提取其細(xì)胞核的圓度及核質(zhì)比對其進(jìn)行二分類。本文的分類器選擇效果好的支持向量機(jī)(SVM)作為分類器。具體流程見圖2,其中綠色代表頂層,黃色代表中層,藍(lán)色代表底層。
眾所周知,選擇區(qū)分度高、有代表性的特征是提高白細(xì)胞分類精度的關(guān)鍵。本小節(jié)將詳細(xì)闡述本文所選取的白細(xì)胞重要特征。
1.1.1 頂層特征選取
因?yàn)椴糠至馨图?xì)胞與其他細(xì)胞相比,體積小且其細(xì)胞核相對較圓,所以本文先利用圓形度特征來篩選出部分淋巴細(xì)胞,以減少下面步驟錯分的個數(shù)。白細(xì)胞圓形度D圓形度計(jì)算公式如下:
Fig.2 Proposed classification scheme for WBC圖2 本文所提的白細(xì)胞分類方案
其中S核是細(xì)胞核的面積,C是細(xì)胞核的周長。顯然,當(dāng)細(xì)胞核為圓形時,其圓形度為1。
眾所周知,在基于分層思想的方法中,白細(xì)胞一旦在某層錯分,則在后繼的分類中必將錯分,這樣會影響最終的分類效果。根據(jù)血液學(xué)的實(shí)驗(yàn)統(tǒng)計(jì)[4]可知,血液中分葉數(shù)大于等于2的中性粒細(xì)胞占白細(xì)胞總數(shù)的50%-70%。為了避免錯分,本文先用分葉數(shù)特征篩選出部分白細(xì)胞直接進(jìn)入底層分類。分葉數(shù)的確定主要是根據(jù)細(xì)胞的連通性,利用腐蝕的方法來做。若細(xì)胞核不是分葉的,則其連通個數(shù)為1或被腐蝕到0;若細(xì)胞核是分葉的,則其連通數(shù)大于等于2。選取其穩(wěn)定的連通個數(shù)記為分葉數(shù),其效果如圖3所示。
Fig.3 Erosion for leaflet圖3 腐蝕分葉示意圖
1.1.2 中層顆粒二分類
對于白細(xì)胞中的顆粒信息,目前方法基本上都是從全局提取顆粒特征,如圖像的能量、方差、熵和平滑度等信息,從未考慮其局部特征。文獻(xiàn)[5]驗(yàn)證了灰度共生矩陣比局部二值模式(LBP)[6]效果好,但計(jì)算灰度共生矩陣需要耗費(fèi)時間多?;诖?,本文引入文獻(xiàn)[7]中的PRICo LBP特征描述顆粒信息,將細(xì)胞區(qū)分為顆粒細(xì)胞和無顆粒細(xì)胞。該特征不但體現(xiàn)空間結(jié)構(gòu)性質(zhì),還對圖片具有旋轉(zhuǎn)不變性。
LBP是一種描述圖像紋理特征的算子,在點(diǎn)A及其3×3的窗口上,以窗口中心A的像素灰度值作為閾值,周圍8個像素灰度值與其進(jìn)行比較。若大于中心閾值,則其值置為1,反之為0。這樣生成8個二進(jìn)制數(shù),然后轉(zhuǎn)換成十進(jìn)制作為該中心像素取得的函數(shù)值,以此反映該窗口區(qū)域的紋理信息。其數(shù)學(xué)公式描述如下:
其中g(shù)i,gc分別代表第i個位置的像素值和中心點(diǎn)的像素值,且
在LBP的基礎(chǔ)上,文獻(xiàn)[7]基于共生的思想提出了PRICo LBP特征,使該特征能更好地表示空間結(jié)構(gòu)信息。其公式描述如下:
Fig.4 Rotation invariance of PRICo LBP圖4 PRICo LBP的旋轉(zhuǎn)不變性
其中LBP A 為旋轉(zhuǎn)不變局部二值模式,LBP(B,i(A))為均勻局部二值模式{ROR(LBP(A),i)}是取點(diǎn)A 的二值序列最大的下標(biāo)作為點(diǎn)B的二值序列的起始點(diǎn)(如圖4所示),從而保證共生LBP的旋轉(zhuǎn)不變性。根據(jù)共生LBP的計(jì)算方法,以點(diǎn)A的梯度方向和法線方向分別作為x軸、y軸,統(tǒng)計(jì)相應(yīng)模式的個數(shù)直方圖作為其特征,記為共生LBP特征。
直方圖的相似性一般利用卡方距離來刻畫,但由于我們只計(jì)算細(xì)胞本身(不包含背景)的共生LBP特征,而細(xì)胞的大小是不一樣的,且由于細(xì)胞
分割誤差的出現(xiàn),這就造成了在歸一化的時候同一類細(xì)胞的直方圖差異較大,為此我們引入了BRD[8]。設(shè)p=[p1,p2,…,pn]與q=[q1,q2,…,qn]是直方圖向量,則其BRD的計(jì)算公式如下:
至此,本文利用PRICo LBP特征將白細(xì)胞區(qū)分為顆粒細(xì)胞和無顆粒細(xì)胞。
1.1.3 底層細(xì)分類
無顆粒白細(xì)胞包括單核細(xì)胞和淋巴細(xì)胞,這兩類細(xì)胞的體積分別是五類白細(xì)胞中最大和最小的。單核細(xì)胞的細(xì)胞質(zhì)比淋巴細(xì)胞的細(xì)胞質(zhì)要多的多,且單核細(xì)胞的細(xì)胞核通常是不規(guī)則的,而淋巴細(xì)胞的細(xì)胞核一般是類圓的。因此,本文選取圓度核質(zhì)比區(qū)分單核細(xì)胞和淋巴細(xì)胞,其數(shù)學(xué)計(jì)算公式為:
其中S核代表細(xì)胞核的面積,S質(zhì)代表細(xì)胞質(zhì)的面積。
對顆粒細(xì)胞,利用1.1.2中的PRICo LBP紋理特征區(qū)分出嗜堿性粒細(xì)胞、嗜酸性粒細(xì)胞和中性粒細(xì)胞。
本小節(jié)將對2.1節(jié)中所提取的各個特征,選取支持向量機(jī)(SVM)[9-10]作為分類器進(jìn)行分類。SVM基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,而非傳統(tǒng)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原理,從而能兼顧訓(xùn)練誤差和泛化能力。并且SVM不存在過學(xué)習(xí)問題,得到的解是全局最優(yōu)解,因此,它具有更好的泛化性能。SVM分類器的具體操作如下:
其中e是分量全為1的向量,C 為常數(shù),Q是n 階矩陣,每個分量Qij=y(tǒng)iyjK(xi,xj),其中K(xi,xj)為核函數(shù),常用的核函數(shù)為高斯函數(shù)或Sigmoid函數(shù)。
上述SVM的優(yōu)化過程可以轉(zhuǎn)化為求解其Lagrange乘子的對偶問題,即
則確定的分類器為
本文實(shí)驗(yàn)中用的高斯核函數(shù)為
其中常數(shù)A由直方圖距離均值取得[11]。
本實(shí)驗(yàn)中所用的數(shù)據(jù)來自瑞典Cellavision數(shù)據(jù)庫[12]及嘉善加斯戴克公司提供的白細(xì)胞圖片。圖片尺寸均為300像素×300像素,且每張圖片只含一個白細(xì)胞(如圖1所示)。其中加斯戴克數(shù)據(jù)庫包含的中性粒細(xì)胞、嗜酸性粒細(xì)胞、嗜堿性粒細(xì)胞、淋巴細(xì)胞和單核細(xì)胞數(shù)量分別為479、15、16、269、21個;Cellavision數(shù)據(jù)庫中對應(yīng)各類數(shù)量分別為30、15、16、20、16個。利用自適應(yīng)閾值分割及Grabcut算法對圖片提取細(xì)胞核及細(xì)胞質(zhì)得到本文實(shí)驗(yàn)的數(shù)據(jù)庫(如圖5和圖6所示)。本文的實(shí)驗(yàn)在MATLAB 2014b上運(yùn)行。
Fig.5 Cellavision database圖5 Cellavision數(shù)據(jù)庫
Fig.6 Jasdaq database圖6 加斯戴克數(shù)據(jù)庫
表1與表2分別是本文所提的方法在Cellavision數(shù)據(jù)庫與加斯戴克數(shù)據(jù)庫進(jìn)行測試的結(jié)果。實(shí)驗(yàn)結(jié)果顯示,本文的方法對于顆粒細(xì)胞的分類精度都在90%以上,表明了本文所提的分類算法是合理且有效的。由于單核細(xì)胞的形狀不規(guī)則,少量單核細(xì)胞的細(xì)胞核為類圓,所以使得其與淋巴細(xì)胞的區(qū)分度不是太明顯。
表1 本文所提的方法在Cellavision數(shù)據(jù)庫上的測試結(jié)果Table 1 Recognition of our proposed algorithm on Cellavision Database
表2 本文所提的方法在Jasdaq數(shù)據(jù)庫上的測試結(jié)果Table 2 Recognition of our proposed algorithm on Jasdaq Database
表3和表4分別是本文所提的方法與文獻(xiàn)[3]中的分層方法在Cellavision數(shù)據(jù)庫以及加斯戴克數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果。從表中可以看出,本文所提的方法在每一類白細(xì)胞的分類效果上都要遠(yuǎn)遠(yuǎn)好于文獻(xiàn)[3]中的結(jié)果,從而進(jìn)一步驗(yàn)證了本文方法的優(yōu)越性。
另外,在Cellavision數(shù)據(jù)上,本文的方法與文獻(xiàn)[3]中的方法所花的測試時間分別為13.19 s和2.576 s,在Jasdaq數(shù)據(jù)庫上所花的測試時間分別為111.71 s和21.98 s。雖然本文所花的測試時間是文獻(xiàn)[3]中方法的6倍,但是我們所提算法的精度是遠(yuǎn)遠(yuǎn)高于文獻(xiàn)[3]的精度,并且在2 min之內(nèi)測試將近800張圖片也是符合當(dāng)前對白細(xì)胞檢測的需求的。因此,我們所提的方法還是合理且有效的。
表3 本文所提的方法與文獻(xiàn)[3]中的HSVM方法在Cellavision數(shù)據(jù)庫上的實(shí)驗(yàn)比較結(jié)果Table 3 Recognition comparison of our proposed algorithm with the HSVM method in paper[3]on CellavisionDatabase
表4 本文所提的方法與文獻(xiàn)[3]中的HSVM方法在Jasdaq數(shù)據(jù)庫上的實(shí)驗(yàn)比較結(jié)果Table 4 Recognition comparison of our proposed algorithm with the HSVM method in paper[3]on Jasdaq Database
本文從白細(xì)胞的具體特征出發(fā),加入顆粒之間的結(jié)構(gòu)與顏色信息以及細(xì)胞的形狀特征,并利用分層的思想對其進(jìn)行分類,實(shí)現(xiàn)白細(xì)胞的自動分類。在Cellavision數(shù)據(jù)庫與嘉善加斯戴克公司數(shù)據(jù)庫上的實(shí)驗(yàn)測試表明,與以往的白細(xì)胞分層方法相比,本文所提的分類方法的精度遠(yuǎn)遠(yuǎn)高于文獻(xiàn)[3]中的結(jié)果。
[1] Nipon Theera-Umpon.Automatic White Blood cell Classification Using Biased-output Neural Networks with Morphological Features[J].ThammasatIntJScTech,2003,8(1):64-71.
[2] Osowski S,Siroic R,Markiewicz T,etal.Application of Support Vector Machine and Genetic Algorithm for Improved Blood Cell Recognition[J].InstrumentationandMeasurement,IEEETransactionson,2009,58(7):2159-2168.
[3] Tai W L,Hu R M,Hsiao H C W,etal.Blood Cell Image Classification Based on Hierarchical SVM[C]//Multimedia(ISM),2011IEEEInternationalSymposiumon.IEEE,2011:129-136.
[4] Berk A,Zipursky S L.Molecular Cell Biology[M].New York:WH Freeman,2000.
[5] Rezatofighi S H,Soltanian-Zadeh H.Automatic Recognition of Five Types of White Blood Cells in Peripheral Blood[J].ComputerizedMedicalImagingandGraphics,2011,35(4):333-343.
[6] Ojala T,Pietikainen M,Maenpaa T.Multiresolution Gray-scale and Rotation Invariant Texture Classification with Local Binary Patterns[J].PatternAnalysisandMachineIntelligence,IEEETransactionson,2002,24(7):971-987.
[7] Qi X,Xiao R,Li C G,etal.Pairwise Rotation Invariant Co-occurrence Local Binary Pattern[J].IEEETransactionson PatternAnalysis&MachineIntelligence,2014,11:2199-2213.
[8] Hu W,Xie N,Hu R,etal.Bin Ratio-based Histogram Distances and Their Application to Image Classification[J].IEEE TransactionsonPatternAnalysis&MachineIntelligence,2014,12:2338-2352.
[9] Vapnik V N.An Overview of Statistical Learning Theory[J].IEEETrans.NeuralNetworks,1999,10(5):988-999.
[10] Chih-Chung Chang,Chih-Jen Lin.LIBSVM:a Library for Support Vector Machines[J].ACMTransactionsonIntelligentSystemsandTechnology,2011,2(3):1-27.
[11] Zhang J,Marszalek M,Lazebnik S,etal.Local Features and Kernels for Classification of Texture and Object Categories:A comprehensive study[J].IntJComputVis,2007,73(2):213-238.
[12] Karin N.Cells in Peripheral Blood.Cella Vision Inc,2000,http:∥www.cellavision.com/?id=3651.