朱建偉,李朝奎,黃云濤,王佳欣,鐘森
(1.湖南科技大學(xué) 地理空間信息技術(shù)國家地方聯(lián)合工程實驗室,湖南 湘潭 411201;2.湖南科技大學(xué) 測繪遙感信息工程湖南省重點實驗室,湖南 湘潭 411201;3.北京航天自動控制研究所,北京 100085)
截至2021年四月,我國高速公路總里程已達160 000 km,高速公路廣告牌沿線設(shè)立,普通路段設(shè)立間隔約1 km,高速收費站、線路密集區(qū)域以及城市周圍則更為密集。單塊廣告牌造價(以常見雙面廣告牌為例)為8萬至12萬元,租賃費用則因地段因素差異較大。全國各省高速沿線廣告管理政策逐步完善,例如2014年湖南省人民政府辦公廳印發(fā)了《湖南省高速公路沿線廣告專項整治工作方案》?,F(xiàn)階段高速公路的廣告牌管理主要采用沿線驅(qū)車,對高速沿線廣告牌逐一下車檢查的方式?,F(xiàn)行方式不僅信息反饋遲緩、成本高昂,且作業(yè)人員存在安全隱患,因此,建立一個實現(xiàn)自動巡檢和信息管理的高速公路廣告牌智能管理系統(tǒng)已經(jīng)成為當下迫切的需求。目前,在無人駕駛技術(shù)研究熱潮的推動下,車載平臺與遙感技術(shù)應(yīng)用的結(jié)合被更加廣泛地鋪開。可以采用車載遙感技術(shù)采集高速公路廣告牌影像數(shù)據(jù),并基于計算機技術(shù)解譯車載遙感獲取的影像數(shù)據(jù)中包含的文本信息和圖像信息,如空置的廣告牌、破損的廣告牌和非法占用的廣告牌等,實現(xiàn)類似人腦的問題甄別。
車載遙感影像數(shù)據(jù)隸屬于自然場景圖像,參照目前自然場景文本提取的方法來看,自然場景中的文字由于其相關(guān)屬性隨機性較大,相對文檔文本來說更加難于識別和提取。目前國內(nèi)外諸多學(xué)者對自然場景靜態(tài)圖像中的文本信息識別與提取技術(shù)進行了挖掘。Veit等[1]設(shè)計了基于神經(jīng)網(wǎng)絡(luò)的自然場景靜態(tài)圖像文本信息識別算法,使用從原始RGB圖像計算得到的復(fù)數(shù)值邊緣方向圖作為特征,通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)對文本和非文本的區(qū)域進行分類。Frost等[2]提取邊緣部分相對應(yīng)的主導(dǎo)像素的梯度矢量流(gradient vectorflow,GVF)鑒定方法,將Sobel邊緣圖作為候選文本區(qū)域。這些方法主要針對提取英文文本。肖珂等[3]提出一種ISODATA聚類和支持向量機結(jié)合的自然場景靜態(tài)圖像文本識別方法,該方法對中文字符的提取是魯棒的;楊宏志等[4]設(shè)計了基于改進Faster R-CNN的自然場景文本檢測算法,但上述方法對本文應(yīng)用需求中文本提取效果均較差。參考現(xiàn)有的文字提取方法,依托廣告牌數(shù)據(jù)特性,本文提出了一種融合高精度MSER獲取與基于像素點的筆畫寬度變換字符識別優(yōu)化算法,為實現(xiàn)高速公路廣告牌智能化管理提供了一種原創(chuàng)性的技術(shù)支持。
首先,對無人機數(shù)據(jù)進行MSER(最大穩(wěn)定極值區(qū)域)檢測得到所有可能包含文本信息的MSER區(qū)域;然后,根據(jù)廣告文本特征對MSER區(qū)域進行篩選,得到高精度MSER包圍盒;接著,利用MSER包圍盒進行基于像素點的SWT文字檢測,得到文本檢測結(jié)果;最后,以經(jīng)典的圖像增強方法對結(jié)果進行降噪和整飾,得到影像中的文本信息,本文算法流程如圖1所示。
1)MSER區(qū)域檢測。以車載遙感影像數(shù)據(jù)來建立候選文本區(qū)域的問題在于,如何在類文本區(qū)域冗雜和廣告牌文本信息形式多樣的條件下檢測出有效的文本區(qū)域。結(jié)合車載遙感廣告牌數(shù)據(jù)與當下主流區(qū)域檢測器各自的特點,本文選擇了MSER(最大穩(wěn)定極值區(qū)域)方法用于無人機數(shù)據(jù)的文本區(qū)域檢測。該方法具備穩(wěn)定性良好、可同時檢測不同精細程度的區(qū)域,并且對灰度圖像仿射變化具有不變性的優(yōu)勢。
MSER檢測首先對影像數(shù)據(jù)進行灰度轉(zhuǎn)化處理,再將其各個像素量化,設(shè)立量化灰度級數(shù)為G=256,灰度取值范圍為0~255。對量化后的圖像二值化,生成二值圖像。在預(yù)設(shè)的灰度取值范圍內(nèi),生成的灰度圖像閾值每發(fā)生一次改變都會生成一幅與之對應(yīng)的二值圖。當閾值取極小時圖像為全白,當閾值取極大時圖像為全黑,如圖2所示。在閾值不斷由極小向極大變化的過程中,會存在著一些與其周圍的灰度變化相比較變化非常小的連通域,這些連通域便是初步檢測到的MSER,即初步的文本候選區(qū)域。該方法提取的MSER,背景對比度較大,自身的灰度值較為穩(wěn)定,并且該區(qū)域在梯度閾值變化下灰度值保持得較好。由于靜態(tài)場景圖像中,同等灰度變化條件下文字區(qū)域背景波動較強,而文字區(qū)域則在灰度變化時較穩(wěn)定,因而應(yīng)用該算法能夠提取常規(guī)方法例如顏色聚類等不能提取的一些連通域。
圖2 梯度閾值下的MSER
2)文本特征分析。本文結(jié)合最大穩(wěn)定極值區(qū)域的提取結(jié)果和原始數(shù)據(jù)中的文本特征,制定了一些針對性較強的先驗知識,以此為約束條件過濾類文本區(qū)域,可以提高MSER的獲取精度。
(1)基于字符長短軸長度比的約束條件。中文字符的構(gòu)成以筆畫為基礎(chǔ),字符的構(gòu)成特征鮮明,又被稱為方塊字。結(jié)合此特點,以字符中心為原點,穿過原點到達字符邊界的橫軸和縱軸比例是被約束在一定范圍內(nèi)的。經(jīng)過大量統(tǒng)計,可見MSER區(qū)域中兩軸比例(該比例不區(qū)分橫縱軸先后順序)大于4∶1的區(qū)域為類文本區(qū)域,不存在中文字符。除此之外,一些特殊結(jié)構(gòu)的字符不能滿足先前的約束條件,如“1”和“一”等。經(jīng)過研究發(fā)現(xiàn),“1”和“一”等結(jié)構(gòu)的擬合橢圓較易獲取且方向都靠近豎直或水平,當擬合橢圓長短軸大于8∶1時,候選區(qū)域不存在中文字符。
(2)基于字符孔洞數(shù)的約束條件。候選區(qū)域中的單個中文字符孔洞數(shù)目容易把控。候選區(qū)域中的單個字符的孔洞數(shù)目通常不會過多。對無人機高速公路廣告牌數(shù)據(jù)進行統(tǒng)計發(fā)現(xiàn),區(qū)域內(nèi)單個字符的孔洞數(shù)目最多不超過五個。
(3)基于字符占空比的約束條件。中文字符的構(gòu)成區(qū)別于英文的構(gòu)成方式,由筆畫“堆積”而成,所以字符本身的像素面積與其擬合橢圓面積的比例是約束在一定范圍內(nèi)的,即占空比。由于字符偏旁部首的像素都散布松散,因此候選文本的擬合橢圓面積往往比候選的文本區(qū)域包圍盒大。實驗表明,候選文本區(qū)域中字符占空比小于0.15且大于0.8的文本包圍盒不存在中文字符。
3) MSER二次過濾。高速公路廣告牌數(shù)據(jù)中可識別出大量MSER,而其中還包含部分的類文本區(qū)域,如部分欄桿、廣告牌邊緣和鐵架等區(qū)域,如圖3、圖4所示。為保證提取進度,濾除類文本區(qū)域是必要的一步。
圖3 包含文本信息的MSER
圖4 類文本區(qū)域
MSER是目前檢測器中性能最優(yōu)越的一種。但是其對模糊的高度敏感也使得它的應(yīng)用產(chǎn)生了明顯的弊端。本實驗中高速公路廣告牌影像受光線變換、圖像迷糊和航拍姿態(tài)角度等因素的影響,將提取出的MSER直接納入文字算法檢測,不僅加大了計算量,而且大大降低了精度。
針對上述問題,對結(jié)果進行過濾:①濾除長短軸長度比大于8∶1的候選區(qū)域;②濾除孔洞數(shù)目大于5的候選區(qū)域;③濾除占空比小于0.2而大于0.85的候選區(qū)域。實驗結(jié)果表明,通過該方法,可以過濾一定數(shù)目為包含文本信息的MSER包圍盒。
筆劃寬度變換(stroke width transform,SWT)字符識別算法是基于文字邊緣像素的向量字符識別算法。廣告牌包含的文本信息具有易辨識、邊緣對比度大等特性。針對該特點,本文對原有的SWT算法進行了優(yōu)化,具體步驟如下。
步驟1:初始化SWT[5]圖像。
步驟2:計算原圖像的Canny邊緣和梯度方向。Canny能夠準確地識別圖像的實際邊緣并且還具備響應(yīng)最小的優(yōu)勢,故選用Canny檢測算子對MSER中的字符像素區(qū)域進行邊緣檢測,并生成邊緣圖。Sobel算子計算MSER中各字符實際邊緣的梯度,并在邊緣精細定位的基礎(chǔ)上生成梯度方向圖。將二者結(jié)合便得到了筆畫寬度變換。
邊緣檢測保障精度的前提是圖像噪聲需控制在合理范圍。采用高斯濾波可以保證原圖像的邊緣走向不變,且能較好地保留特征點及邊緣特性。字符筆畫的兩邊是否具有相反方向的Canny邊緣檢測點很大程度上決定了實驗結(jié)果的精度。字符邊界灰度值的變化是包含大小和方向的向量,用梯度表示。使用點與Sobel算子相乘等方式得到不同的梯度向量。
步驟3:濾除非邊緣點。字符邊緣在通過高斯濾波后部分邊緣的像素點存在被放大的問題,需要通過某種約束來濾除高斯濾波后才出現(xiàn)的非邊緣點,使邊緣盡可能平滑。某個像素點的位置處于圖像的實際邊緣上,則該邊緣像素點的梯度向量值應(yīng)該是最大的,否則濾除該非最大值。具體方法為通過設(shè)置上下閾值提高邊緣檢測精度,只用單閾值檢測邊緣的精度并不是很理想。這里采用啟發(fā)式的方法便可以得到一個上閾值和一個下閾值,而處于下閾值之下的一定為非邊緣像素。首先選用兩個指標閾值,設(shè)置為上閾值(maxT)和下閾值(minT)。檢測過程中大于maxT的即判定為邊緣像素,低于minT的被判定為非邊緣,而位于上閾值和下閾值中間的部分看其是否與已確定的邊緣像素為鄰接關(guān)系,若與邊緣像素為鄰接關(guān)系的判斷為邊緣。
步驟4:邊緣檢測完成并生成邊緣的梯度方向圖后,沿邊緣尋找方向相反的一對梯度點,并且以兩梯度點間的像素數(shù)量作為其寬度大小為這對方向相反的梯度點賦值。求出所有一一對應(yīng)的邊緣點,并將其相連后輸出,得到一幅由筆畫寬度組成的與原字符方向和大小一致的輸出圖,如圖5所示。
圖5 筆畫寬度計算
步驟5:二次過濾,得到SWT Map。
得到SWT Map以后,結(jié)果中字符的邊界存在模糊、裂隙、尖刺和小橋等問題。利用圖像增強的方法進行降噪處理,即進行開運算和閉運算處理,二者均可在保持原圖像面積不變或細微改動的基礎(chǔ)上處理SWT MAP中的邊界噪聲。
本文以湖南省湘潭市長潭西高速公路勘測項目為依托。研究區(qū)域位于湖南省長株潭城市群長潭西高速路段,長度約24 km,沿線兩側(cè)廣告牌總計58個。
全部實驗及數(shù)據(jù)采集均在相同條件下進行。實驗平臺為惠普筆記本電腦Envy15,CPU為Intel core i5處理器。實驗開發(fā)工具為MATLAB2016a。車載相機型DSC-RX1RM2,像素為4 020萬,焦距為35 mm。
根據(jù)實際情況和實驗數(shù)據(jù)特點等條件,隨機抽取部分數(shù)據(jù)并對提取的實際結(jié)果進行前后對比。影像中由人工目視數(shù)得的字符數(shù)量為實際字符數(shù),記為T,由本文算法識別并提取出的字符數(shù)量為算法提取數(shù),記為E,如表1所示。
表1 算法提取結(jié)果對比
目前該領(lǐng)域內(nèi)普遍采用國際會議ICDAR所提出對于場景文本提取算法優(yōu)劣的評價模型。該模型包含召回率(r)和準確率(ρ)兩個評價因子。其中,召回率針對的是車載遙感影像數(shù)據(jù)中原有的文本連通域,準確率則表示預(yù)測的提取結(jié)果中符合要求的正樣本有多少,表達如式(1)、式(2)所示。
(1)
(2)
式中:C表示E和T的交集。為了更加直觀地評估該算法,通過式(3)所示的方法計算其綜合性能。
(3)
式中:f表示綜合性能,上限為1,越逼近極限則表示算法性能越好;α為準確率和召回率的權(quán)重因子。本文算法結(jié)果與其他方法的性能比較如表2所示。
表2 六種自然場景文本提取方法性能比較
實驗結(jié)果表明,本文基于車載遙感數(shù)據(jù)的文本識別方法是魯棒的,該方法對廣告牌問題甄別提供了有力支持。其中,文本信息提取結(jié)果為0的廣告牌為空置廣告牌;文本信息提取結(jié)果中字符數(shù)量未達要求的廣告牌為破損、污損、褶皺廣告牌;文本提取內(nèi)容存在非原廣告牌字跡的為非法廣告牌等。選取部分較為具有代表性的實驗結(jié)果如圖6所示。
圖6 算法實驗結(jié)果展示
本文設(shè)計的MSER檢測與二次過濾算法剔除了大量類文本信息的干擾,減少了計算量,且對于車載遙感廣告牌數(shù)據(jù)中包含多樣性的文本區(qū)域識別表現(xiàn)是魯棒和高效的。本文落足當下高速公路廣告牌巡檢中的應(yīng)用需求,以車載遙感廣告牌影像數(shù)據(jù)為研究對象,將現(xiàn)有自然場景文本算法針對車載遙感數(shù)據(jù)的特點進行了改進和優(yōu)化,實現(xiàn)了車載遙感廣告牌數(shù)據(jù)中文本信息的高精度提取,為智能廣告牌巡檢中的自動化問題甄別提供了新的技術(shù)支持。
首次提出了一種車載遙感高速公路廣告牌影像文本信息提取算法,并成功應(yīng)用于高速公路廣告牌巡檢中,解決了現(xiàn)有方法效率低、危險性較高等難題。該技術(shù)支持了實現(xiàn)建立完善的智能化高速公路廣告牌巡檢管理系統(tǒng),同時一定程度上解決了當下自然場景文本信息識別與提取方法只對英文文本信息的提取較為成熟的問題,克服了既有方法對該應(yīng)用需求中文本提取效果欠佳的問題。研究結(jié)論如下。
1)以長潭西高速路段為實驗載體,驗證了車載遙感高速公路廣告牌巡檢的應(yīng)用前景。
2)提出的廣告牌文本信息提取方法的精度足以滿足搭建計算機高速公路廣告牌智能巡檢管理系統(tǒng)的需求。
本文局限性在于該方法對極少數(shù)包含藝術(shù)字、手寫體等較復(fù)雜情況下的廣告牌文本識別效果欠佳,后續(xù)將作為研究重點。廣告牌中的圖像信息的檢測與提取也是進一步研究的重點,是開發(fā)廣告牌智能巡檢管理系統(tǒng)的重要組成部分。