閔新港 黃邵祺 游少杰 戴博
關(guān)鍵詞:微生物識別;圖像分割;粒子群算法;支持向量機(jī)
中圖分類號:X 835 文獻(xiàn)標(biāo)志碼:A
引言
水源微生物廣泛分布于自然與人工水體環(huán)境中,它們無法用肉眼直接觀察,例如水中的原生動物和真菌的大小通常介于0.1~100 μm,只能在顯微鏡下進(jìn)行觀察。作為水質(zhì)的關(guān)鍵評價指標(biāo)之一,水源微生物的繁殖情況可以很好地反映水體的污染程度。因此,推進(jìn)水源微生物分類識別的相關(guān)研究對于水源的生物安全性監(jiān)測、水環(huán)境治理等具有非常重要的意義。
考慮到傳統(tǒng)機(jī)器學(xué)習(xí)方法對圖形處理單元的要求較低,能夠以較低成本部署在設(shè)備中,且所需的樣本量小,訓(xùn)練時間短,許多學(xué)者仍在利用機(jī)器學(xué)習(xí)方法來提高微生物檢測的準(zhǔn)確性。Rahmayuna 等[1] 提出了一種利用支持向量機(jī)實現(xiàn)細(xì)菌種類的屬級分類技術(shù),對4 種細(xì)菌的預(yù)測準(zhǔn)確率達(dá)到了90.33%。Dhindsa 等[2] 利用像素聚類和Kirsch 濾波分割圖像中的微生物,對不同分類器提取相應(yīng)的特征,再比較分類回歸樹等多種分類算法,結(jié)果表明,分類回歸樹算法最優(yōu),對10 種微生物的識別準(zhǔn)確率達(dá)到了98%。本研究通過邊緣檢測來提取圖像中的微生物,并提取多種圖像特征并優(yōu)化了部分特征參數(shù),基于多特征融合的方法制作微生物數(shù)據(jù)集,采用粒子群優(yōu)化算法的支持向量機(jī)( support vector machineoptimized by particle swarm optimization, PSOSVM)來訓(xùn)練識別模型,并將其與網(wǎng)格搜尋支持向量機(jī)( grid search support vector machine, GSSVM)[3]、誤差反向傳播算法(back propagationneural network, BP)和集成支持向量機(jī)(ensembleSVM)[4] 比較,建立了一種高效的微生物識別方法。
1 水樣采集與微生物圖像集制作
微生物采集于浦東威立雅自來水公司,由于夏季是微生物繁殖的高峰期,所以選擇該時期進(jìn)行采樣工作,采樣類型包括過濾水和出廠水。首先將濾袋放置在出水管道上,持續(xù)富集3 d,之后將采樣帶回實驗室并轉(zhuǎn)移到培養(yǎng)皿中,在Axio Vert.A1 型倒置顯微鏡(德國卡爾·蔡司公司)下觀察,照明光源為顯微鏡自帶的明場光源,顯微物鏡放大倍率為5×。使用Canon EOS80D 相機(jī)(日本佳能株式會社)對微生物進(jìn)行拍照,ISO 速度為800,曝光時間為1/200 s,圖像分辨率為4 000×6 000。最終得到8 種微生物,共640 張圖像(每種80 張),圖1 展示了這8 種微生物的實例。采用每種微生物的50 張圖像用作訓(xùn)練集,30 張圖像用作測試集,為減小計算量,提高后續(xù)的處理速率,圖像尺寸統(tǒng)一調(diào)整為600×900。用Sefexa 軟件來繪制評價標(biāo)準(zhǔn)圖像。
2 水源微生物識別系統(tǒng)整體流程
提出了一種水源微生物自動識別系統(tǒng),該系統(tǒng)的整體流程如圖2 所示。首先,輸入制作完成的微生物圖像集,通過自編寫的圖像分割算法對微生物圖像執(zhí)行圖像增強(qiáng)、平滑濾波、邊緣檢測、形態(tài)學(xué)處理等操作,獲得目標(biāo)微生物的二值掩膜,并提取目標(biāo)微生物所在區(qū)域,得到分割后的微生物圖像。隨后,對分割后的圖像提取6 種特征描述子,包括幾何特征、內(nèi)部結(jié)構(gòu)直方圖、傅里葉描述子、胡不變矩、灰度共生矩陣和旋轉(zhuǎn)不變局部二值模式。由于6 種特征的總維數(shù)不高,通過連接的方式進(jìn)行特征融合。接下來,導(dǎo)入融合后的特征數(shù)據(jù),通過粒子群算法優(yōu)化SVM 訓(xùn)練參數(shù),建立優(yōu)化后的微生物識別模型,最終由該模型輸出微生物的識別結(jié)果。
3 微生物圖像分割與特征提取
3.1 微生物圖像分割
設(shè)計了兩種微生物圖像分割方法,分別是全自動圖像分割方法與半自動圖像分割方法。半自動分割方法是在全自動分割方法基礎(chǔ)上,新增了可以手動畫出感興趣的分割區(qū)域的功能,并只在該區(qū)域內(nèi)進(jìn)行后續(xù)的圖像分割,這樣可以在復(fù)雜環(huán)境中更加準(zhǔn)確地分割出目標(biāo)微生物。針對不同的環(huán)境復(fù)雜程度可采用不同的分割方法,例如:在流動的水體中,微生物和雜質(zhì)密度較低,適合全自動分割方法;在富集的水樣中,目標(biāo)微生物會被大量雜質(zhì)覆蓋,適合半自動分割方法。
對于全自動分割方法,首先輸入原始微生物圖像,再將原始圖像轉(zhuǎn)化為灰度圖,之后通過點(diǎn)運(yùn)算增強(qiáng)對比度, 高斯濾波去噪, 隨后用Canny 邊緣檢測算子[5] 來檢測微生物邊界,通過形態(tài)學(xué)處理閉合邊緣圖像并獲得最終的分割結(jié)果。對于半自動分割方法,其流程如圖3 所示:第1 步,讀取原始圖像;第2 步,用戶通過光標(biāo)指針手動畫出感興趣的區(qū)域;第3 步,將原始圖像轉(zhuǎn)化為灰度圖,高斯平滑處理,點(diǎn)運(yùn)算增強(qiáng)對比度;第4 步,裁剪出所畫的感興趣區(qū)域,并求出其他區(qū)域的灰度均值,用來填充黑色背景區(qū)域;第5 步,用Canny 雙閾值邊緣檢測提取微生物邊緣輪廓,并使用形態(tài)學(xué)處理方法閉合邊界;最后,填充微生物區(qū)域內(nèi)部以獲得分割后的微生物圖像。
Canny 邊緣檢測是最常用的邊緣檢測方法之一,它有著良好的抗噪聲干擾性,對圖像的弱邊緣檢測能力較好?;谔荻壤碚揫6],假定f(x, y)代表微生物圖像中坐標(biāo)(x, y)處的灰度值。則該坐標(biāo)處的梯度被定義為
該坐標(biāo)處的梯度方向為
式中,Gx 和Gy 分別為橫軸x 方向和縱軸y 方向的梯度分量。根據(jù)式(2)和(3),可以得到整幅圖像所有像素點(diǎn)的梯度幅值和方向。隨后Canny 算子在0°、45°、90°和135° 4 個梯度方向上對數(shù)據(jù)執(zhí)行非極大值抑制,對于中心像素點(diǎn)(x, y),選定其周圍的8 鄰域像素范圍,得到該點(diǎn)的梯度方向所在直線與鄰域相交的兩個端點(diǎn)。由于實際圖像是離散二維矩陣,端點(diǎn)不一定真實存在,需要進(jìn)行插值。將點(diǎn)(x, y)與兩個端點(diǎn)比較,若中心點(diǎn)梯度幅值是3 個點(diǎn)中的最大值則保留,反之置0。隨后設(shè)定適當(dāng)?shù)牡烷撝蹬c和高閾值,若像素點(diǎn)梯度幅值小于低閾值則舍棄;若梯度幅值大于高閾值則保留;若梯度幅值介于兩者之間,則求出該點(diǎn)的8 鄰域像素的梯度幅值,如果梯度幅值高于高閾值,則保留該點(diǎn),否則舍棄。
3.2 圖像分割評價
對于以上兩種圖像分割方法,采用相似度( similarity) 、靈敏度( sensitivity) 以及特異度(specificity)3 個指標(biāo)進(jìn)行評價,評價時的分割圖像與評價標(biāo)準(zhǔn)圖像均為二值圖像,1 代表感興趣像素,0 代表背景像素。其相似度式定義分別為
式中:Vsim 表示分割圖像與評價標(biāo)準(zhǔn)圖像的相似度; Tp 表示被正確標(biāo)記的像素總數(shù); Fp 表示被錯誤標(biāo)記為感興趣像素的背景像素總數(shù); Fn 表示被錯誤標(biāo)記為背景像素的感興趣像素總數(shù)。
3.3 微生物特征提取
從分割后的微生物圖像中提取幾何特征、內(nèi)部結(jié)構(gòu)直方圖特征、傅里葉描述子、胡不變矩、灰度共生矩陣和旋轉(zhuǎn)不變局部二值模式,共6 種圖像特征。
幾何特征( geometrical feature, GF) 包括:(1)微生物的面積A;(2)微生物邊界輪廓的周長P; ( 3) 微生物的圓度( circularity) 4πA/P2;(4)與微生物區(qū)域具有相同歸一化二階中心矩的橢圓長軸長度l1 和短軸長度l2。
內(nèi)部結(jié)構(gòu)直方圖(internal structure histogram,ISH)特征:如圖4 所示,在微生物邊界輪廓上標(biāo)記K 個等距分布的采樣點(diǎn),將任意3 個點(diǎn)組合,計算它們的內(nèi)部結(jié)構(gòu)角(例如圖4 所示的角θ),并將所有能得到的內(nèi)切角按照一定的角度范圍進(jìn)行計數(shù),由此可以得到ISH 特征。
4.3 粒子群優(yōu)化算法的支持向量機(jī)(PSO-SVM)
在此項研究中,使用PSO 算法優(yōu)化支持向量機(jī)的核參數(shù)γ 以及懲罰因子C,建立PSOSVM識別模型。其流程如圖5 所示,具體步驟為:(1)輸入微生物的特征數(shù)據(jù)集;(2)PSO 算法參數(shù)設(shè)定,包括粒子群的粒子總數(shù)、最大迭代次數(shù)、慣性權(quán)重、局部和全局學(xué)習(xí)因子、待優(yōu)化參數(shù)C 和γ 的限制范圍;(3)初始化粒子群,隨機(jī)初始化粒子的速度和位置,迭代次數(shù)置零;(4)循環(huán)執(zhí)行步驟6 到步驟9,每循環(huán)一次則迭代次數(shù)加1; ( 5) 利用PSO 優(yōu)化的SVM 參數(shù)C 和γ 建立微生物圖像特征的SVM 分類模型,并評估測試集的識別準(zhǔn)確率;(6)計算每個粒子的適應(yīng)度;(7)計算粒子的個體和全局優(yōu)化適應(yīng)度,并根據(jù)式(13)和式(14)更新每個粒子的速度和位置;(8)判斷循環(huán)是否終止,如果達(dá)到兩代之間的最小誤差或者最大迭代次數(shù),則終止循環(huán),反之則返回步驟5;(9)輸出最優(yōu)的參數(shù)C 和γ;(10)建立優(yōu)化的SVM 模型;(11)輸出微生物分類識別結(jié)果。
5 結(jié)果與討論
5.1 特征參數(shù)優(yōu)化
為了獲得客觀的評估結(jié)果,使用評價標(biāo)準(zhǔn)圖像進(jìn)行特征參數(shù)的優(yōu)化。表1 展示了在不同采樣點(diǎn)數(shù)量以及不同角度統(tǒng)計范圍下提取的ISH 特征的識別準(zhǔn)確率,結(jié)果表明,采樣點(diǎn)為100 個,角度分區(qū)范圍為{0~15°, ···, 165°~180°}時的準(zhǔn)確率最高,達(dá)到了79.41%,此時的特征維數(shù)為12 維。表2 展示了在不同采樣點(diǎn)數(shù)量下提取的FD 特征的識別準(zhǔn)確率,結(jié)果表明,當(dāng)采樣點(diǎn)數(shù)量為150 個時,準(zhǔn)確率最高,達(dá)到88.50%,此時的特征維數(shù)為75 維。表3 展示了不同鄰域半徑和采樣點(diǎn)個數(shù)條件下RI-LBP 特征的識別準(zhǔn)確率,當(dāng)鄰域半徑為1,采樣點(diǎn)為8 個時,準(zhǔn)確率最高,達(dá)到72.16%,此時特征維數(shù)為256 維。
5.2 圖像分割評價
圖6 展示了兩種分割方法的實際分割效果以及評價標(biāo)準(zhǔn)圖,第1 行是原始圖像,第2 行是評價標(biāo)準(zhǔn)圖像,第3 行是全自動分割圖像,第4 行是半自動分割圖像。原始圖像中目標(biāo)微生物的周圍有不同程度的雜質(zhì)干擾,通過半自動分割方法可以將目標(biāo)微生物非常精準(zhǔn)地分割出來,分割后的圖像形態(tài)與評價標(biāo)準(zhǔn)圖像非常接近,而全自動分割方法無法去除與目標(biāo)微生物緊挨著的大體積雜質(zhì),分割效果較差。
由式(4)—(6)可計算得到全自動分割圖像與半自動分割圖像相較于評價標(biāo)準(zhǔn)圖像的相似度、靈敏度和特異度。評價結(jié)果如表4 所示:半自動分割圖像與評價標(biāo)準(zhǔn)圖的相似度為90.94%,比全自動分割方法提升了4.96%;半自動分割圖像的靈敏度為97.24%,比全自動分割方法提升了0.70%;半自動分割圖像的特異度為99.89%,比全自動分割方法提升了0.27%。因此,半自動分割方法可以更好地分割微生物圖像。
為了進(jìn)一步評估分割性能,將以上兩種不同分割方法分割后的微生物圖像制成特征數(shù)據(jù)集,利用SVM 訓(xùn)練和測試,求出單類別特征的識別準(zhǔn)確率,訓(xùn)練過程采用5 折交叉驗證[17],實驗重復(fù)10 次,取平均值。結(jié)果如圖7 所示,除RI-LBP 特征以外,半自動分割方法的其他所有特征的識別準(zhǔn)確率均高于全自動方法,其中GF 的識別結(jié)果最優(yōu),其準(zhǔn)確率為90.84%。與評價標(biāo)準(zhǔn)圖相比,半自動分割圖像的GF、Hu、GLCM 3 種特征的識別準(zhǔn)確率差異均在1% 以內(nèi),ISH 的準(zhǔn)確率差異約3%,RI-LBP 的準(zhǔn)確率差異約4%。此外,對于半自動分割圖像,其所有6 種特征的平均準(zhǔn)確率為77.35%,與評價標(biāo)準(zhǔn)圖的相應(yīng)值相比僅低了2.62%;全自動分割方法的所有特征平均準(zhǔn)確率與評價標(biāo)準(zhǔn)圖的相應(yīng)值比較,低了7.35%。因此,對拍攝于富集后的水體微生物圖像,適用于半自動分割方法。因為大量的微生物與雜質(zhì)堆積在一起,分割難度非常大,而通過手動選擇感興趣區(qū)域,可以有效降低圖像噪聲的影響,實現(xiàn)對目標(biāo)微生物的精準(zhǔn)分割。對于拍攝于流動水體的微生物圖像,則適合全自動圖像分割方法,因為該方法無需人工干預(yù),能實時處理圖像,且微生物和雜質(zhì)的密度較低,大多數(shù)微生物能被正確地分割。
5.3 PSO-SVM 微生物識別模型
評價標(biāo)準(zhǔn)圖提取的微生物的6 種特征數(shù)據(jù),經(jīng)過特征融合后作為特征數(shù)據(jù)集。利用PSO 算法優(yōu)化SVM 的核參數(shù)γ 以及懲罰因子C,得到PSO-SVM 微生物識別模型。 PSO 算法的參數(shù)設(shè)置如下:粒子的種群大小為24;加速常數(shù)C1 與C2 均為1.5;慣性權(quán)重為0.6;最大迭代次數(shù)為100。在PSO 優(yōu)化過程中,使用SVM 模型的識別準(zhǔn)確率作為粒子適應(yīng)度。
利用PSO 優(yōu)化SVM 參數(shù)過程中的適應(yīng)度曲線如圖8 所示,適應(yīng)度隨著粒子的迭代次數(shù)增加而逐漸收斂,在第72 代時達(dá)到最大值,由此獲得最優(yōu)的SVM 參數(shù)C = 21.165 2,γ = 0.025 504。隨后利用訓(xùn)練完成的PSO-SVM 模型對8 種微生物的測試集進(jìn)行分類識別,采用5 折交叉驗證,測試10 次,取平均值作為最終測試結(jié)果,并將其與GS-SVM、BP、Ensemble SVM 3 種識別方法的測試結(jié)果比較。
結(jié)果如圖9 所示,PSO-SVM 識別方法對于此8 種微生物具有最好的分類性能,平均識別率為98.60%,其中:月形腔輪蟲的識別率為99.19%;溞的識別率為98.13%;猛水蚤的識別率為98.77%;鉤狀狹甲輪蟲的識別率為97.17%;未知微生物1 的識別率為97.92%;未知微生物2 的識別率為97.60%;紅蟲和顫藻的識別率最高,均為100%。GS-SVM 模型的平均識別率為96.28%,比PSO-SVM 低了2.32%;Ensemble SVM 的識別率為91.57%,比PSO-SVM 低了7.03%;BP神經(jīng)網(wǎng)絡(luò)的平均識別率為81.33%,在4 種算法中最低,這是因為微生物樣本數(shù)量較少所致。
實驗結(jié)果表明,PSO-SVM 識別方法的識別性能優(yōu)于其他3 種分類算法,更適用于水源微生物識別。利用全自動分割圖像提取的特征數(shù)據(jù)建立的PSO-SVM 模型平均識別率為92.25%,相較于評價標(biāo)準(zhǔn)圖低了6.35%,這是由于本文中的原始微生物圖像均采集于富集后的水樣,其微生物與雜質(zhì)比較密集,微生物圖像的全自動分割效果較差所致。利用半自動分割圖像提取的特征數(shù)據(jù)建立的PSO-SVM 模型,其平均識別率為97.08%,僅比評價標(biāo)準(zhǔn)圖的識別率低1.52%。
6 結(jié)論
提出了一種基于多特征融合和PSO-SVM 的水源微生物自動識別方法??紤]到水源環(huán)境的不同復(fù)雜程度,設(shè)計了全自動和半自動分割兩種微生物圖像分割方法,分別適用于流動水體中拍攝的微生物圖像以及水體富集后拍攝的微生物圖像。針對8 種微生物優(yōu)化了ISH、FD、RI-LBP的特征參數(shù),通過連接的方式將所有特征融合起來,最后利用該特征數(shù)據(jù)建立了PSO 算法優(yōu)化的SVM 模型,實現(xiàn)對8 種水源微生物的分類和識別。實驗結(jié)果表明,該模型能夠準(zhǔn)確地識別其中的每一種微生物, 平均識別準(zhǔn)確率達(dá)到97.08%。因此,該技術(shù)有望用于水源微生物的高效自動檢測,以提高居民用水的安全保障和水源環(huán)境監(jiān)測效率。