不均勻光照和重影的儀表圖像二值化方法

2020-03-05 03:12:08孫國棟柳晨康

應(yīng)用光學(xué) 2020年1期

孫國棟，徐昀，徐亮，張航，柳晨康

（湖北工業(yè)大學(xué) 機(jī)械工程學(xué)院，湖北武漢 430068）

引言

高壓計量儀表在發(fā)電廠和變電站中起著至關(guān)重要的作用，涉及發(fā)電、供電、用電三方之間很多的經(jīng)濟(jì)和技術(shù)問題，其準(zhǔn)確與否直接關(guān)系到三方的經(jīng)濟(jì)利益。因此，定期校驗高壓計量儀表以提高其準(zhǔn)確性具有重要意義[1]。傳統(tǒng)人眼讀數(shù)校驗跟不上計量儀表的變化速度，難以準(zhǔn)確記錄儀表真實數(shù)值。而部分高壓計量儀表不提供與計算機(jī)進(jìn)行數(shù)據(jù)通信的接口，無法通過儀表端口直接將數(shù)字讀取出來。為了適用各種送檢的計量儀表，采用機(jī)器視覺方法進(jìn)行字符識別。機(jī)器視覺使儀表字符識別成為可能，儀表圖像的字符識別一般分為三步[2-4]：字符分割，特征提取和字符分類。由于高壓計量儀表現(xiàn)場測試難免處在光照過強(qiáng)、過弱和光照不均的環(huán)境下，并且儀表數(shù)字在變化的過程中會產(chǎn)生重影現(xiàn)象，導(dǎo)致字符分割過程中的圖像二值化困難。傳統(tǒng)的二值化主要有全局閾值算法和局部閾值算法[5]。大津法（Otsu）[6]、迭代閾值法[7]和最大熵法[8]是常用的全局閾值算法，其通常是從整個圖像選擇一個閾值來最小化前景和背景像素的類間方差，但對于復(fù)雜光照下或目標(biāo)灰度范圍分布大的圖像效果較差，且無法去除重影現(xiàn)象。局部閾值分割算法常用的有Bernsen 算法[9]、Niblack 算法[10]、Sauvola 算法[11]、Bradley[12]算法和Wellner[13]算法，其處理光照不均的圖像效果比全局閾值好，但是存在對目標(biāo)像素點鄰域相差很大的圖像處理效果不佳的問題，同樣不能去除圖像中的重影現(xiàn)象。

由于直接對圖像數(shù)字分割和分類識別的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)比較復(fù)雜，而且對儀表上的小數(shù)點識別效果不好，影響儀表字符識別的效率，所以本文主要針對儀表字符分割算法進(jìn)行研究。雖然Mei 等[14]提出基于深度學(xué)習(xí)的方法能有效去除光照不均，但該方法采用的數(shù)據(jù)集是在原始圖像中添加不均勻光照得到的模擬圖，輸出結(jié)果為彩色圖，且模擬圖與真實圖像差距較大，失真現(xiàn)象較嚴(yán)重，也沒有去除重影，因而無法應(yīng)用在真實環(huán)境下的儀表識別中。針對儀表圖像含有光照不均和重影而無法有效二值化的問題，本文設(shè)計了一種新型全卷積神經(jīng)網(wǎng)絡(luò)框架用于儀表圖像的二值化分割，網(wǎng)絡(luò)的輸出為二值圖，實驗所用的數(shù)據(jù)集為真實環(huán)境下的儀表圖像。

1 實驗方法

1.1 FCN 網(wǎng)絡(luò)

全卷積神經(jīng)網(wǎng)絡(luò)（Fully Convolutional Networks，F(xiàn)CN）[15]作為一種卷積神經(jīng)網(wǎng)絡(luò)（CNN），能夠?qū)D像進(jìn)行像素級分類并解決了語義級別的圖像分割問題，為深度學(xué)習(xí)領(lǐng)域做出了巨大的貢獻(xiàn)。FCN網(wǎng)絡(luò)不是分類網(wǎng)絡(luò)，而是一個可以接受任意大小尺寸輸入并且輸出相同大小的標(biāo)簽圖像的端到端的網(wǎng)絡(luò)，其將CNN 最后的全連接層換成了卷積層，輸出的是目標(biāo)對應(yīng)的標(biāo)簽圖像。FCN 的網(wǎng)絡(luò)結(jié)構(gòu)包含下采樣和上采樣兩個部分，下采樣部分提取語義信息并能堆疊卷積層信息，上采樣部分對最后一個卷積層的特征圖進(jìn)行反卷積，將圖像恢復(fù)到與輸入圖像相同大小的尺寸。

1.2 VGG 網(wǎng)絡(luò)級標(biāo)題

VGG16 是卷積神經(jīng)網(wǎng)絡(luò)中分類效果非常好的一種網(wǎng)絡(luò)[16]，為了能夠充分捕捉圖像的信息同時減少參數(shù)量，簡化網(wǎng)絡(luò)結(jié)構(gòu)，整個網(wǎng)絡(luò)基本使用大小為3×3 的卷積核組合與堆疊，可以得到與卷積核大小為5×5 或7×7 相同的效果。圖1 是VGG16 的網(wǎng)絡(luò)結(jié)構(gòu)圖，由13 個卷積層和3 個全連接層組成。輸入大小為224×224×3 像素的原始圖片，每一個卷積層通過多個3×3 卷積核連續(xù)堆疊組成卷積序列。

圖1 vgg16 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure diagram of vgg16 network

1.3 提出的網(wǎng)絡(luò)結(jié)構(gòu)

本文提出的網(wǎng)絡(luò)也是一種端到端的可訓(xùn)練的全卷積神經(jīng)網(wǎng)絡(luò)模型。網(wǎng)絡(luò)框架結(jié)合了FCN 網(wǎng)絡(luò)和VGG16 網(wǎng)絡(luò)，網(wǎng)絡(luò)輸入是原始的RGB 圖像，輸出是干凈無重影的二值圖，訓(xùn)練和測試都可以接收任意大小的圖像。

網(wǎng)絡(luò)結(jié)構(gòu)主要由兩部分組成：特征提取部分和圖像重組部分。特征提取是一個下采樣過程，由5 個卷積塊組成，每個卷積塊由卷積層和最大池化層組成，卷積層后面接relu 函數(shù)作為激活函數(shù)，relu 函數(shù)相比與sigmoid 函數(shù)和tanh 函數(shù)計算更快，收斂更快。卷積層的卷積核大小為3×3，步長為1，池化層的池化窗口的大小選擇2×2，步長為2，以減少輸出大小和防止網(wǎng)絡(luò)過度擬合。每經(jīng)過一個卷積塊，圖像大小減小一倍，以更大的比例來提取信息。圖像重組是一個上采樣過程，有5 個反卷積塊將提取的信息還原成圖片形式，反卷積塊由反卷積層和連接層組成，反卷積層的卷積核大小為4×4，步長為2。與FCN 網(wǎng)絡(luò)類似，為了減少在上采樣過程中的信息丟失，在上采樣部分添加連接層，連接層是反卷積后的特征圖與下采樣部分相同大小的特征圖進(jìn)行信息組合，補(bǔ)充反卷積后的語義信息得到更高分辨率的新特征圖。之后，連接層和上采樣部分的卷積層不用激活函數(shù)，采用線性變換合成這些多尺度特征，網(wǎng)絡(luò)的最后經(jīng)softmax 輸出。網(wǎng)絡(luò)總體結(jié)構(gòu)如圖2 所示，藍(lán)色代表卷積層，橙色代表最大池化層，紅色代表反卷積層，綠色代表連接層，最后的紫色代表softmax 層。

圖2 設(shè)計的全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Structure diagram of designed full convolutional neural network

損失函數(shù)是訓(xùn)練網(wǎng)絡(luò)很重要的一個環(huán)節(jié)，在FCN 網(wǎng)絡(luò)中，網(wǎng)絡(luò)的任務(wù)用于分類，使用的是交叉熵?fù)p失函數(shù)。而我們的網(wǎng)絡(luò)訓(xùn)練任務(wù)是回歸，因為輸出是一個圖像，又必須要學(xué)習(xí)回歸模型來消除圖像中的不均勻光照和數(shù)字重影。為了訓(xùn)練我們的模型，采用均方誤差（mean square error，MSE）作為損失函數(shù)。其定義如下：

其中：n代表樣本個數(shù)；yi代表標(biāo)簽；yi′代表網(wǎng)絡(luò)預(yù)測輸出。

2 實驗過程和結(jié)果

2.1 數(shù)據(jù)集的采集和制作

為了提高網(wǎng)絡(luò)在復(fù)雜環(huán)境下的魯棒性，本實驗使用的數(shù)據(jù)集在儀表所處的真實環(huán)境下采集，并且調(diào)節(jié)光源處于儀表左右邊或正對位置并與相機(jī)是否有旋轉(zhuǎn)角度組合拍攝，采集得到的圖像是3 通道的RGB 圖片，剔除肉眼無法識別出的圖像，最終樣本圖像尺寸為911×261 像素，共計7 600 張。模擬數(shù)據(jù)可以在原始的均勻光圖像上直接二值化得到樣本的標(biāo)簽，但是用模擬圖訓(xùn)練的網(wǎng)絡(luò)測試真實的儀表圖像效果很不理想。本文使用的訓(xùn)練數(shù)據(jù)為真實的儀表圖像，需要手動制作標(biāo)簽，由于儀表上的數(shù)字大小距離一致，可以通過確定圖像上數(shù)字的相對位置制作標(biāo)簽。如圖3 所示，在儀表上標(biāo)記固定點，以下面兩個固定點為x軸，包含數(shù)字的最小矩形邊為y軸，建立直角坐標(biāo)系，從而可確定圖像上每個數(shù)字的位置。以小數(shù)點為基礎(chǔ)，將人眼識別到的數(shù)字依次按位置填充，即可得到對應(yīng)的標(biāo)簽。為了減少訓(xùn)練時間，實驗樣本圖只截取數(shù)字信息部分。

圖3 標(biāo)簽的制作Fig.3 Label making

2.2 實驗結(jié)果集的采集和制作

實驗環(huán)境為：GPU 為NVIDIA Quard K2200，顯存4G；Intel（R）Xeon（R）CPU E5-2640 2.4 GHz；基于TensorFlow 框架，Python3.6 編程語言。

實驗沒有使用任何預(yù)先訓(xùn)練過的其他模型，初始學(xué)習(xí)率設(shè)為1e-4，batch size 設(shè)置為16，epoch 設(shè)置為100 個。本文使用PASCAL challenges 的IoU （Intersection over Union）標(biāo)準(zhǔn)和衡量兩幅圖像相似度的指標(biāo)信噪比（SNR）來評價分割后的二值圖，IoU 是一個簡單的測量標(biāo)準(zhǔn)，設(shè)標(biāo)簽上為目標(biāo)的像素點集合為A，訓(xùn)練結(jié)果的目標(biāo)像素點集合為B，則IoU的計算公式為

其中：分子表示A 與B 的目標(biāo)像素重合值；分母表示A 與B 的目標(biāo)像素總和。IoU 值越大，表示預(yù)測結(jié)果與真實結(jié)果重疊部分越多，分割效果越好。

圖像信噪比能對經(jīng)過處理后的圖像質(zhì)量好壞進(jìn)行衡量，其計算公式如下：

其中：i和j分別是圖像的長和寬像素點：g(i,j)和f(i,j)分別代表原始圖像和處理后的圖像在點(i,j)處的灰度值。計算得到的SNR 值越大，說明處理后的圖像與原圖像越相似。

表1 給出了各個算法運(yùn)行時間以及測試200張圖像的IoU 值和SNR 值，圖4 顯示了各種算法的運(yùn)行結(jié)果。從實驗結(jié)果可以看出，不均勻的光照對二值化的效果影響很大。傳統(tǒng)的方法對儀表中含有光照不均和重影的圖像進(jìn)行二值化后效果很差，其中Otsu 法、最大熵法和迭代閾值法都是使用單一閾值的方法，對不均勻光很敏感，不能有效區(qū)分出背景與目標(biāo)，并且對不同光照的圖像處理結(jié)果相差很大，有很大的局限性。Niblack 算法能夠大體上分割出目標(biāo)區(qū)域，但是結(jié)果伴隨大量的噪聲，同樣不能去除數(shù)字重影。Bernsen 算法、Sauvola 算法和Bradley 算法通過逐點比較相鄰點的像素灰度值來確定閾值，但是儀表圖像存在局部區(qū)域大部分為背景的現(xiàn)象，而光照不均的影響會使這些方法將背景像素劃分為目標(biāo)像素，從而產(chǎn)生分割錯誤，分割出來的數(shù)字仍然沒有去除數(shù)字重影。Wellner 算法將圖像分成較小的塊來確定每個塊的閾值，但對于強(qiáng)光照塊卻無法分割出目標(biāo)像素點，對數(shù)字重影也沒有效果。而本文所設(shè)計的網(wǎng)絡(luò)對含有不均勻光照和重影的圖像二值化效果清晰無重影，計算出來的IoU 值和SNR 值都比其他方法高，證明分割得到的圖像與原圖像相似度最高，且網(wǎng)絡(luò)模型對不同光照強(qiáng)度和旋轉(zhuǎn)的圖像都能適用，具有較強(qiáng)的泛化能力。

表1 各算法的結(jié)果對比Table 1 Comparison of results of each algorithm

圖4 不同算法對圖像的處理結(jié)果Fig.4 Processing result of each algorithm

3 結(jié)論

不同強(qiáng)度的光照和數(shù)字重影嚴(yán)重影響高壓計量儀表圖像的字符識別準(zhǔn)確性。為此，本文提出一種新的全卷積神經(jīng)網(wǎng)絡(luò)用于復(fù)雜光照下含有重影的儀表圖像的二值化分割。與傳統(tǒng)的閾值分割方法不同，網(wǎng)絡(luò)不用手動尋找閾值，只需訓(xùn)練樣本數(shù)據(jù)得到網(wǎng)絡(luò)模型即可實現(xiàn)儀表圖像的二值化分割。通過與傳統(tǒng)的二值化方法進(jìn)行對比，實驗結(jié)果顯示了本文方法的二值化效果最佳，能夠有效去除數(shù)字重影，且對不同程度的光照都適用，對發(fā)生偏移或旋轉(zhuǎn)的圖像，仍然能給出正確的結(jié)果，更適合于復(fù)雜環(huán)境下的儀表圖像二值化。本文的方法僅用于儀表字符識別的二值化過程，并且訓(xùn)練所需要的時間較長，有一定的局限性。下一步的研究工作將進(jìn)一步提高網(wǎng)絡(luò)的魯棒性和適用性，以在更多的場景中應(yīng)用。