趙麗科,鄭順義,2,馬浩,王曉南,魏海濤
(1.武漢大學遙感信息工程學院,武漢430079; 2.地球空間信息技術協(xié)同創(chuàng)新中心,武漢430079)
田徑運動員號碼牌圖像的號碼識別
趙麗科1,鄭順義1,2,馬浩1,王曉南1,魏海濤1
(1.武漢大學遙感信息工程學院,武漢430079; 2.地球空間信息技術協(xié)同創(chuàng)新中心,武漢430079)
田徑運動項目中通常拍攝得到大量的圖像,如何快速獲取特定運動員的圖像成為普遍關注的問題.為了快速檢索包含特定運動員的圖像,本文提出了識別圖像中運動員編號的方法,依據(jù)運動員編號的識別達到快速檢索的目的.首先,采用DPM(Deformable Part Model)(可形變部件模型)進行人體檢測,縮小搜索范圍,接著按照運動員號碼牌的先驗知識,采用兩種方式進行運動員號碼牌定位,保障定位的可靠性;然后對定位出的號碼牌進行字符分割;最后采用基于特征的BP(Back Propagation)神經(jīng)網(wǎng)絡的方法進行號碼牌識別.實驗結(jié)果表明,在運動員號碼牌幾乎無遮擋的情況下,使用本文提出的方法能有效地識別出完整號碼牌;在運動員號碼牌存在部分遮擋時,可以識別出未被遮擋部分的編號.本文提出的運動員號碼牌識別方法為檢索特定運動員圖像提供了思路,大大減少了普遍采用的人工查找方式的工作量.
田徑運動;字符分割;BP神經(jīng)網(wǎng)絡;字符識別
場景中字符的自動識別在圖像檢索、智能交通等領域有著廣泛的應用,隨著配備著高清攝像頭的手機、數(shù)碼相機等的大量使用,圖像的獲取更加方便快捷,圖像場景中的字符提取與識別已引起了廣泛的關注與研究[1].體育賽場上,運動員的編號作為區(qū)分運動員的一個重要標志,廣泛應用于體育比賽中運動員的身份識別[2].運動員識別最常用的兩種方式有人臉識別與運動員編號識別[3].人臉識別需要眾多樣本參與,但是許多運動員僅有報名的圖像,并且在運動中人的表情、姿態(tài)等會發(fā)生變化,人臉識別具有一定的難度.與人臉識別運動員相比,運動員編號的號碼牌上的字符通常由0—9組成(有時會有字母,若有字母,字母一般為運動員編號的第一位,用于表示運動員的分組,且每次比賽中包含的字母固定),運動員編號的識別就更為便捷[4].不同于足球、籃球等運動中運動員的編號是直接印在球衣上,田徑運動員的號碼牌是貼在運動員衣服上的.田徑運動員跑步時身體姿態(tài)變化不定,伴隨著一定程度的扭曲,同時伴隨著手臂的擺動,手臂會出現(xiàn)在號碼牌周圍,因此會造成號牌一定程度的遮擋,這就導致運動員號碼牌的定位、分割和識別存在一定的難度.
目前自然場景中的文本定位方法主要有基于區(qū)域和基于紋理特征定位這兩種方式[5].文獻[6]采用Lab色彩空間進行分割,然后對連通區(qū)域進行分析定位文本;文獻[7]利用邊緣信息生成連通區(qū)域,采用由粗到細的方式定位文本;文獻[8]采用k-均值聚類的方式提取文本的連通區(qū)域.總體來說,基于區(qū)域的定位方法快速簡單,在彩色文本、低分辨率和噪聲圖像中被廣泛應用[9],但是在圖像退化、變形或模糊等情況下不能取得較好的效果[10].用于定位的紋理特征主要包括文本的邊緣分布特性、文本周圍的灰度較低以及文本內(nèi)部較大方差等.文獻[11]提出了采用小波變換的基于紋理的文本定位方法;文獻[12]采用支持向量機(Support Vector Machine,SVM)的方法定位視頻中的文本;文獻[13]采用AdaBoost算法和聯(lián)合概率的方式檢測自然場景中的文本.基于紋理的定位方式對復雜背景下的文本定位能取得較好的結(jié)果,但該類方法需要詳盡的掃描圖像,造成文本定位計算復雜度大、耗時長[14].不斷有學者提出字符定位的方法,但是由于不同應用背景下字符文本的特性差別較大,沒有普適的方法對每種應用都能取得較好的結(jié)果,需要根據(jù)應用的不同確定字符文本的定位方法.
字符分割是字符識別的基礎,運動員號碼牌的識別需要首先完成字符的分割,字符分割的精度直接影響字符識別的精度[15].目前字符分割的方法主要有投影法[16]、連通區(qū)域分析[17]、模板匹配[18]等.投影法在字符無傾斜、旋轉(zhuǎn)的情況下能夠有效地分割字符,但對噪聲敏感.連通區(qū)域分析法在文本中有噪聲、污點的情況下,容易出現(xiàn)分割錯誤;而結(jié)合先驗知識的連通區(qū)域分析可以有效地改善分割結(jié)果.模板匹配的方法是根據(jù)字符的寬度和位置等先驗知識建立模板分割字符,這類方法對邊框敏感,抗干擾性較差.此外,也有一些算法將分割和識別進行結(jié)合,采用整體識別[19]的方法,在圖像質(zhì)量較差時也能取得較好的結(jié)果,但計算復雜度大.
字符識別是文本分析的最后一個環(huán)節(jié),字符識別算法主要有模板匹配法[20]、特征匹配法[21]、神經(jīng)網(wǎng)絡[22]和支持向量機[23]等.模板匹配法通過比較模板與待識別字符的差別進行識別,計算速度快,但抗噪能力較差,只有在字符大小固定、無傾斜、無旋轉(zhuǎn)的情況下才能有效識別.特征匹配法通過對特征的匹配獲得較好的區(qū)分相似字符的能力,但是特征匹配的準則不易把握,易受噪聲影響.神經(jīng)網(wǎng)絡具有良好的學習、容錯和抗干擾能力,字符識別率高,但隨著網(wǎng)絡的復雜程度增大,計算復雜度也增大.支持向量機具有適應性強、效率高的特點,在小樣本條件下識別字符具有較高的準確率,但是該方法對輸入的參數(shù)要求比較嚴格,選擇的參數(shù)對后續(xù)影響較大.
通常大型的田徑運動項目如馬拉松比賽中,會拍攝大量比賽的圖像.在查找包含某位運動員的圖像時,現(xiàn)階段普遍采用的方法是人工查找每一幅圖像,這種查找方式工作量大、耗時費力.針對缺乏有效檢索方法這一問題,本文提出了一種識別圖像中運動員編號的方法∶首先采用DPM定位圖像中的人體;接著根據(jù)比賽中運動員號碼牌的固定顏色組合方式進行號碼牌定位(每次比賽中運動員身上所貼的號碼牌的背景和字體顏色是固定的,田徑運動中最為常見的號碼牌為白色區(qū)域、黑色字符組成,也有一些其他的顏色組合方式,本文以白色區(qū)域黑色號碼牌為例,根據(jù)白色區(qū)域、黑色字符等先驗知識完成號碼牌定位,其他顏色組合方式可以采用類似的思路進行定位);然后采用結(jié)合先驗知識的連通區(qū)域分析法分割字符,通過先驗知識克服連通區(qū)域分析存在對噪聲敏感的缺點;最后,根據(jù)運動員號碼牌上字符傾斜、變形等特性,同時考慮復雜度的影響,采用基于特征的BP神經(jīng)網(wǎng)絡的方法識別號碼牌中的各字符,完成號碼牌識別.整體流程圖如圖1所示.
圖1 整體流程圖Fig.1 The overall flow chart
號碼牌通常貼在運動員衣服上的胸部位置,在人體中的位置相對固定,如果能提取出人體在圖像中的位置,則可以避免在整幅圖像中盲目搜索,大大減小號碼牌定位的搜索范圍.首先使用人體檢測算法提取出圖像中的各個人體,然后針對各人體圖像采用本文后續(xù)的方法進行運動員編號的識別.運動場景中每一幅被定格的圖像,運動員的姿態(tài)近似為直立狀態(tài),提取人體即提取圖像中大體呈直立姿態(tài)的人體[24].行人檢測常用的方法有HOG(Histograms of Oriented Gradients)(方向梯度直方圖)、ACF(Aggregate Channel Features)(聚合通道特征),DPM等,其中DPM算法[25]是一種基于部件的檢測方法,對目標的變形具有很強的魯棒性,對人體識別具有較高的精度.DPM算法是一個混合模型,由若干個組件模型構(gòu)成,其檢測采用在不同分辨率上提取改進的HOG特征、SVM分類器和滑動窗口檢測方案,通過求解混合模型的響應得分,即特征與待匹配模型的相似程度,若得到超過了分類閾值,則認為窗口中包含目標.混合模型的綜合得分計算方法為
其中,score(x0,y0,l0)表示錨點(x0,y0)處在尺度層l0的檢測分數(shù),R0,l0(x0,y0)為主模型的響應分數(shù),Di,l0-λ(2(x0,y0)+vi)為第i個子模型的響應(根據(jù)子模型與主模型分辨率間一倍的關系,子模型的坐標需要映射到更大的尺度層l0-λ,即(x0,y0)→2(x0,y0)),vi為子模型i相對于2(x0,y0)的位置偏移,b為不同組件模型需要對齊所設置的偏移系數(shù).響應變換為
其中,Di,l(x,y)為子模型i在尺度層l的(x,y)位置的響應變換,Ri,l(x+dx,y+dy)為子模型在(x+dx,y+dy)位置的響應得分.(dx,dy)為相對(x,y)的偏移,di·φd(dx,dy)為偏移(dx,dy)后所損失的得分,di為偏移損失系數(shù),φd(dx,dy)=(dx,dy,dx2,dy2).
本文采用DPM算法進行人體檢測,人體檢測結(jié)果如圖2所示.
圖2 人體檢測結(jié)果Fig.2 Results of human detection
人體檢測獲取每幅圖像中的人體部分后,需要對人體中的號碼牌進行定位.號碼牌定位是后續(xù)處理的基礎,只有號碼牌被準確定位才能提供可靠的分割、識別依據(jù),這對整體號碼牌的識別至關重要.由于田徑運動員號碼牌比較柔軟,容易發(fā)生變形,所以不能依據(jù)邊界線定位號碼牌;同時由于運動員所穿衣服的顏色可能與號碼牌顏色一致,較可靠的定位方法為分情況進行區(qū)域定位.因此,本文將號碼牌定位分為兩種情況∶①運動員衣服為非白色,依據(jù)白色區(qū)域定位號碼牌;②運動員衣服為白色,根據(jù)黑色字符定位號碼牌.
2.1 白色區(qū)域號碼牌定位
當運動員穿的衣服不是白色的情況下,采用區(qū)域定位的方式,直接鎖定白色號碼牌區(qū)域.一些學者[26-28]采用HSV(Hue Saturation Value)、HIS(Hue Intensity Saturation)等色彩空間進行定位,但需要進行色彩空間轉(zhuǎn)換,計算量較大.考慮黑白兩色在該空間的范圍,本文采用的區(qū)域定位方式直接在RGB(Red Green Blue)空間進行,同樣能得到較好的效果且計算速度快.理想情況下,R(Red)、G(Green)、B(Blue)三個分量均為255表示純白色;然而由于實際拍攝環(huán)境中受光照、角度、噪聲等的影響,得到白色的R、G、B三個分量在一定的范圍內(nèi)波動,通常表現(xiàn)為R、G、B三分量值均較大且近似相等.本文根據(jù)這一特點提取圖像中的白色區(qū)域.將R、G、B三個分量滿足公式
的區(qū)域認為是白色區(qū)域.
公式(3)中,
其中,Vmax表示R、G、B三個分量中最大的值,Vmin表示三個分量中最小的值.當滿足公式(3)時,判定該區(qū)域為白色區(qū)域,其余部分為非白色區(qū)域.按照這種方式對圖像進行二值化處理,圖3(b)為人體圖像二值化結(jié)果.
當運動員號碼牌周圍有其他白色因素的干擾時,會對號碼牌的定位產(chǎn)生影響.根據(jù)數(shù)學形態(tài)學的閉運算具有一定的平滑功能,能夠檢測圖像中的邊緣、漏洞和孤立點,可以剔除比結(jié)構(gòu)元素小的圖像細節(jié),填充物體內(nèi)細小空洞等特點[29],首先對二值圖像進行閉運算操作,剔除圖像中的細節(jié),將內(nèi)部的小洞填充起來,如圖3(c)所示.其次,號碼牌周圍容易有手臂或者類似于白色的圖標、字符等干擾元素,若不消除,會造成定位范圍較大且包含白色字符,對后續(xù)分割產(chǎn)生不利影響.本文剔除號碼牌周圍的干擾輪廓的方法為∶定義一個矩形大小為w×h,統(tǒng)計該矩形內(nèi)黑色像素的個數(shù),若黑色像素個數(shù)小于閾值Th,則將該矩形內(nèi)部的黑色像素予以剔除.w、h、Th的選擇依據(jù)為圖像中的號碼牌內(nèi)部各個區(qū)域的黑色像素的比例較大而干擾位置黑色像素所占的比例較小.去干擾后結(jié)果示例如圖3(d)所示.
由于運動員身上的號碼牌具有一些明顯的特性∶號碼牌的尺寸滿足一定的范圍;標準號碼牌為一個矩形,寬高比固定;號碼牌貼在運動員的上半身;號碼牌中間位置為運動員的編號等.針對號碼牌的這些特性,結(jié)合上述剔除干擾邊緣后的二值圖像,獲取黑色像素連通區(qū)域的最小外包圍矩形,依照下面幾個準則剔除非號碼牌區(qū)域.
(1)剔除面積過大或者過小的連通區(qū)域,由于號碼牌尺寸的限制,其面積需在一定的范圍內(nèi).
(2)號碼牌在人體圖像的胸部位置,運動員的號碼牌不會位于人體圖像的頂部和底部,剔除位于人體圖像頂部或底部位置的連通區(qū)域.
(3)連通區(qū)域的外包圍矩形需要滿足一定的寬高比限制,雖然號碼牌會發(fā)生變形或褶皺,但其寬高比仍在一定的范圍內(nèi)波動,剔除不滿足寬高比要求的連通區(qū)域.
(4)連通區(qū)域中黑色像素所占的比重在一定的范圍內(nèi),因為號碼牌內(nèi)存在數(shù)字,并且數(shù)字所占整個號碼牌的部分相對較小,所以黑色像素所占的比例在一定范圍內(nèi).
(5)為了避免運動員衣服上存在類似號碼牌顏色的區(qū)域,判斷連通區(qū)域內(nèi)部的黑白像素跳變存在規(guī)律,若連通區(qū)域無跳變或跳變過于頻繁,則予以剔除.連通區(qū)域無跳變表明該區(qū)域中包含字符的可能性極小,跳變過于頻繁表示該區(qū)域中包含若干小字符或者圖案等非運動員號碼牌編號.
按照上述準則,依次剔除不符合條件的連通區(qū)域,號碼牌定位結(jié)果如圖3(e)所示.
圖3 白色區(qū)域定位Fig.3 Number plate location by white area
2.2 黑色字符號碼牌定位
運動員身穿白色衣服時,按照白色區(qū)域定位的原則顯然不能得到號碼牌的位置.當采用上述區(qū)域定位的方式不能成功定位號碼牌時,采用如下檢測黑色字符的方式進行定位.
同樣在RGB空間直接進行黑色字符的檢測,理想的純黑色R、G、B三個分量均為0,由于光照等原因的關系,黑色表現(xiàn)為R、G、B三分量值均較小且近似相等,R、G、B三分量滿足公式
則認為該像素為黑色.
公式(5)中各個參數(shù)的意義與公式(3)中的各參數(shù)意義相同,此處不再贅述.
限定了黑色像素的R、G、B分量之后,對圖像進行二值化處理,圖4(b)為二值化后的圖像.需要采用適合的方式將字符連接起來,構(gòu)成連通區(qū)域.首先將不可能為字符的部分進行剔除,剔除面積過大或過小白色連通區(qū)域,圖4(c)為剔除干擾的結(jié)果.從圖中可以看出,一些明顯不是號碼牌上字符的干擾特征得以有效剔除,為后續(xù)確定整體字符的連通區(qū)域提供了有利的條件.根據(jù)數(shù)學形態(tài)學中閉運算的特點,若選擇合適的結(jié)構(gòu)元素,號碼牌上數(shù)字可以被有效地合并在一起,采用閉運算獲得如圖4(d)所示的結(jié)果.在進行了上述操作之后,圖像中包含的連通區(qū)域為號碼牌的候選區(qū)域.同樣根據(jù)號碼牌在人體圖像中的分布特性,依照白色區(qū)域定位方式中的準則(1)—(3)進行候選區(qū)域的過濾篩選(準則(1)—(3)中的參數(shù)會做適當?shù)恼{(diào)整),圖4(e)為號碼牌的定位結(jié)果.
圖4 黑色區(qū)域號碼牌定位Fig.4 Number plate location by black area
號碼牌通常由多個數(shù)字組成,識別的時候按照每個字符的特性進行判斷,因此需要首先完成號碼牌中數(shù)字的分割.由于定位得到的號碼牌大小以及包含內(nèi)容不同,白色區(qū)域定位的號碼牌包含了頂、底的廣告信息,黑色區(qū)域定位的號碼牌通常只包含運動員編號,所以需要根據(jù)號碼牌的特性進行數(shù)字分割.
數(shù)字分割之前需要進行圖像二值化,二值化效果的好壞直接影響字符分割、識別的質(zhì)量.目前,二值化方式大致可以分為兩類∶全局閾值二值化和局部自適應閾值二值化[30].全局閾值二值化對于目標和背景明顯分離、光照分布均勻、噪聲干擾較小的圖像,二值化效果較好;局部自適應閾值二值化是由當前像素灰度值與該像素鄰域內(nèi)灰度特征確定閾值,對光照不均勻、有突發(fā)噪聲的情況能得到較好的結(jié)果.以圖像中的號碼牌為例,采用OTSU最大類間方差法(日本學者大津(OTSU)提出,又叫大津法)和Bernsen二值化方法這兩種方法二值化的結(jié)果如圖5所示.OTSU處理結(jié)果雖然能剔除號碼牌中廣告因素的干擾,但同時造成了圖像中的干擾與字符的黏連;Bernsen二值化處理雖然保留了圖像中的廣告信息,但是可以有效分離出字符周圍的干擾,為后續(xù)進一步確定字符分割提供了條件.針對號碼牌內(nèi)部有時會出現(xiàn)手臂等干擾狀況,選擇Bernsen局部自適應閾值的方法進行二值化.
圖5 二值化結(jié)果Fig.5 Binarization
二值化后的圖像需要采用合理的分割方法完成字符分割,針對號碼牌二值化后的特性,輔以判斷條件進行字符分割.由于號碼牌內(nèi)部可能存在一些背景信息,以及某些號碼牌發(fā)生傾斜的情況,本文提出基于先驗知識的連通區(qū)域分析法進行字符分割.如圖6、圖7分別為白色區(qū)域定位號碼牌、黑色字符定位號碼牌的字符分割結(jié)果.針對白色區(qū)域定位出的號碼牌頂部、底部存在廣告,運動員編號位于號碼牌的中間位置;黑色字符定位得到的號碼牌中通常只包含運動員編號的特性,得到白色像素連通區(qū)域的最小外包圍矩形,外包圍矩形需要滿足如下要求.
(1)通過白色區(qū)域定位得到的號碼牌,其外包圍矩形不能位于號碼牌的頂部和底部,這是由號碼牌頂、底的廣告所決定的,若某些比賽白色號碼牌內(nèi)部不存在廣告信息以及通過黑色字符定位得到的號碼牌,即定位得到的號碼牌內(nèi)部只包含運動員的編號,只需將閾值更改即可.
(2)字符的大小限制,號碼牌大小相對固定,外包圍矩形過大或過小的連通區(qū)域均不可能為數(shù)字.
將滿足這兩個要求的白色像素連通區(qū)域保留,其余部分剔除.通常情況下,若號碼牌內(nèi)噪聲少,且白色像素連通區(qū)域數(shù)目與運動員編號數(shù)目相同,則滿足這兩個要求的白色區(qū)域即為分割結(jié)果,如圖6(a)、圖7(a)所示.若滿足這兩個要求,但白色像素連通區(qū)域的數(shù)目與運動員編號數(shù)目不同,則需要進一步處理.本文提出如下方法進一步分割字符.
圖6 白色區(qū)域定位的號碼牌分割結(jié)果Fig.6 Segmentation of the number plate located by white area
圖7 黑色字符定位的號碼牌分割結(jié)果Fig.7Segmentation of the number plate located by black area
(1)當白色像素連通區(qū)域的數(shù)目比運動員編號數(shù)目多,則需要進一步處理.通常情況下,當?shù)玫降臄?shù)目比運動員編號數(shù)目多(一般比運動員編號多一個數(shù)字,多兩個的基本沒有)的情況下,則認為錯誤發(fā)生在第一個以及最后一個的概率大過發(fā)生在中間的數(shù)字(邊界容易有噪聲干擾).去除第一個與最后一個外包圍矩形,求出剩余外包圍矩形起始行的平均坐求出所有外包圍矩形的高度起始行ystart、寬度W和高度值H與平均值的差異程度,其公式為
將各外包圍矩形得到的dis進行排序,保留與運動員編號的字符數(shù)目一致的dis較小的外包圍矩形,得到最終的分割結(jié)果,如圖6(b)、圖7(b)所示.
(2)當?shù)玫降陌咨B通區(qū)域的數(shù)目比運動員編號數(shù)目少時,通常為號碼牌發(fā)生了遮擋,檢測到的數(shù)字有缺失,如圖6(c)、圖7(c)所示.針對此類情況,雖然不能得到完整的運動員編號,但根據(jù)號碼牌識別的具體應用,每個運動員具有唯一編號,且每次賽事中所有運動員編號均可獲得的特性,將不完整的號碼牌分割結(jié)果進行保留,接著采用后續(xù)識別方法得到不完整的運動員編號,與運動員編號進行對比,可以得到該號碼牌可能為某運動員.
由于運動員號碼牌分割得到的數(shù)字在一定程度上存在傾斜,并且字符中可能伴有噪聲,如圖8所示,這些特性決定了數(shù)字識別需要具有較強的抗噪性、對畸變不敏感的識別方法.神經(jīng)網(wǎng)絡方法具有較強的容錯能力、自適應學習能力和準確性.BP神經(jīng)網(wǎng)絡是最常用的神經(jīng)網(wǎng)絡方法之一,通過對神經(jīng)網(wǎng)絡計算得到的輸出和樣本值進行誤差分析,不斷反復修正神經(jīng)網(wǎng)絡中各個權值,使網(wǎng)絡的輸出接近期望輸出.本文采用BP神經(jīng)網(wǎng)絡用于識別數(shù)字,BP神經(jīng)網(wǎng)絡的結(jié)構(gòu)有∶輸入層、網(wǎng)絡隱含層、輸出層.Kolmogorov定理表明,在合理的結(jié)構(gòu)和恰當?shù)臋嘀禇l件下,三層網(wǎng)絡可以逼近任意的連續(xù)函數(shù),因此本文構(gòu)建一個三層的BP神經(jīng)網(wǎng)絡.采用分割得到的二值圖像進行字符識別,若進行字符的細化,則傾斜、變形以及噪聲的影響對字符識別影響較大;若直接采用輸入整個二值圖像作為輸入神經(jīng)元,計算復雜度大,影響字符識別的效率.本文采用基于特征的BP神經(jīng)網(wǎng)絡進行字符識別,在保證識別精度的同時降低計算復雜度.輸入層神經(jīng)元的個數(shù)即為提取特征的數(shù)目,本文提取161個特征,具體特征提取方式見下文.輸出層的個數(shù)即為數(shù)字的個數(shù)10.目前隱含層神經(jīng)元數(shù)目選取的方式有很多,本文根據(jù)輸入層、輸出層神經(jīng)元的數(shù)目,結(jié)合實踐經(jīng)驗,采用隱含層神經(jīng)元數(shù)目為44.每個數(shù)字有200個訓練樣本,為了提高網(wǎng)絡的泛化能力,訓練樣本中包含規(guī)則、傾斜、變形的字符.
圖8 部分字符示意圖Fig.8 Character sketches
具體特征的提取方式為∶首先將分割后的數(shù)字進行歸一化(歸一化大小為42×24);然后將歸一化后的二值圖像提取的特征作為輸入神經(jīng)元,具體包括如下特征.
(1)統(tǒng)計圖像中所有白色像素的個數(shù),共1個特征.
(2)圖像中每一行白色像素的個數(shù),掃描每一行的每個像素,若為白色像素則加1,直到到達圖像的邊界,共有42個特征.
(3)掃描圖像的每一列,統(tǒng)計該列白色像素的個數(shù)和,共有24個特征.
(4)將圖像分為m×n的大小,統(tǒng)計每一個區(qū)域內(nèi)部白色像素的個數(shù)和,如圖9(a)所示,本文選用6×6大小的區(qū)域進行統(tǒng)計,共有28個特征.
(5)統(tǒng)計每一行的分段數(shù),如圖9(b)所示,根據(jù)二值圖像中每一行像素的值,統(tǒng)計連續(xù)為白色像素段的個數(shù),共42個特征.
(6)按照與(5)類似的方法統(tǒng)計每一列的分段數(shù),共24個特征.
BP神經(jīng)網(wǎng)絡具體識別字符的過程如下.
第一步,對字符圖像進行大小歸一化操作,將字符的大小統(tǒng)一調(diào)整為42×24.
第二步,對樣本圖像進行特征提取,特征樣本輸入到BP神經(jīng)網(wǎng)絡學習,建立識別模型.
第三步,對字符圖像進行特征提取,采用建立好的識別模型進行數(shù)字識別.
第四步,輸出整個號碼牌上各字符的識別結(jié)果.
按照上述方式采用BP神經(jīng)網(wǎng)絡進行字符識別,獲得的識別結(jié)果如圖10所示.
圖9 字符特征提取Fig.9 Character feature extraction results
圖10 字符識別結(jié)果Fig.10 Character recognition results
為了驗證本文提出的運動員號碼牌識別方法的可靠性,在CPU i7八核3.6 GHz、12 GB內(nèi)存、Windows7 64位操作系統(tǒng)的PC機上,采用Visual C++編程語言進行實驗.采用一組馬拉松比賽現(xiàn)場拍攝的圖像,選用的馬拉松比賽運動員號碼牌為白色區(qū)域、黑色字符,運動員編號為4位數(shù)字組成.實驗目的為輸入包含馬拉松運動員的圖像,輸出運動員的編號.這組馬拉松運動員的圖像庫共有1 042張(4 288×2 848),包含清晰可辨的人共4 805人,其中包含佩戴號碼牌的運動員共1 924個.這組圖像中號碼牌矩形框的最大尺寸和最小尺寸分別為119×98、29×23,其中幾乎無遮擋的號碼牌共有1 528個,嚴重遮擋的號碼牌數(shù)目為396.
首先采用DPM算法對圖像庫中的照片進行人體檢測,共檢測出人體4 702個,正確檢測出的人體的數(shù)目為4 515,檢測有誤的數(shù)目為187,未能檢測出人體的數(shù)目為240,其中檢測到佩戴號碼牌的運動員數(shù)目為1 827.采用正確檢測率、誤檢測率和漏檢測率評價號碼牌檢測的結(jié)果.正確檢測率為正確檢測人體數(shù)目與圖像庫中包含人體的實際數(shù)目的比值;誤檢測率為檢測錯誤的人體數(shù)目與圖像庫中包含人體的實際數(shù)目的比值;漏檢測率為未檢測到的人體數(shù)目與圖像庫中包含人體的實際數(shù)目的比值.人體檢測結(jié)果如表1所示.DPM是一種準確性非常高的檢測器,采用多部件模型,對視角以及姿態(tài)變換魯棒性較強,能夠有效地檢測呈直立行走或奔跑的人體.但由于拍攝距離的差異,尺度過小對檢測圖像中的人體造成漏檢,馬拉松現(xiàn)場背景拍攝中有時會出現(xiàn)人體結(jié)構(gòu)的干擾會造成誤檢.圖11所示為人體檢測的典型示例.
表1 人體檢測結(jié)果Tab.2 The efficiency of human detection
圖11 人體檢測結(jié)果示例Fig.11 Examples of human detection results
對檢測出來的1 827個佩戴號碼牌的運動員人體圖像進行號碼牌定位的實驗,其中檢測出人體的號碼牌共有1 810個,正確定位號碼牌的數(shù)目為1 704,定位有誤的數(shù)目為106,未能定位的數(shù)目為17.號碼牌的正確檢測率、誤檢測率和漏檢測率如表2所示.采用本文提出的號碼牌定位方法能夠準確地定位出圖像中的號碼牌,但當場景中存在類似于號碼牌的形狀時,在定位過程中會發(fā)生誤定位.圖12所示為號碼牌定位的示例結(jié)果.
表2 號碼牌定位結(jié)果Tab.2The efficiency of number plate location
將定位出來的號碼牌進行分割處理,只有當號碼牌上有完整的數(shù)字時,才有可能分割得到完整的編號,由于受遮擋的影響一些號碼牌上的數(shù)字并不完整,則會造成無法分割得到完整的編號.正確定位得到的號碼牌中嚴重遮擋的有309個,號碼牌幾乎無遮擋的有1 395個.嚴重遮擋為號碼牌中至少包含一個字符被遮擋,且人眼也不可識別該字符的情況;幾乎無遮擋為號碼牌上無遮擋、遮擋的部位不是字符的部位,或者遮擋較少的字符的部分,且人眼可以識別該字符的情況,如圖13所示.針對幾乎無遮擋的號碼牌,只有當號碼牌上的所有字符均被正確分割才認為是正確分割,其中幾乎無遮擋的號碼牌正確分割數(shù)目為1 297個,錯誤分割數(shù)目為55個,漏分割43個號碼牌.嚴重遮擋的號碼牌由于缺少字符或字符被嚴重遮擋難以有效分割,嚴重遮擋的號碼牌若能有效分割出沒被遮擋的字符,則認為該嚴重遮擋號碼牌正確分割,嚴重遮擋號碼牌正確分割數(shù)目為276個,分割錯誤數(shù)目為19個,漏分割號碼牌數(shù)目為14個,號碼牌的分割情況如表3所示.大多數(shù)號碼牌能夠有效地完成分割,但由于號碼牌中存在干擾、字符遮擋造成的斷裂、字符黏連嚴重等情況,造成少量號碼牌的誤分割以及漏分割.圖14為圖像分割的典型示例.
圖12 號碼牌定位結(jié)果示例Fig.12 Examples of number plate location results
表3 號碼牌分割率Tab.3 The efficiency of number segmentation
圖13 遮擋示例Fig.13 Occlusion sample
圖14 號碼牌分割示例Fig.14 Examples of number plate segmentation results
將分割得到的數(shù)字采用訓練的BP神經(jīng)網(wǎng)絡識別模型進行識別,訓練樣本中包含了一些變形的數(shù)字.幾乎無遮擋情況下分割正確的號碼牌中的所有字符均被完全識別的數(shù)目為1 246,其中有一個數(shù)字誤識別則認為號碼牌識別有誤,誤識別號碼牌數(shù)目為51,整個號碼牌的識別正確率為96.07%.嚴重遮擋情況號碼牌中分割正確的號碼牌中的各字符均為正確識別的數(shù)目為265,誤識別的數(shù)目為11個,嚴重遮擋的號碼牌識別的正確率為96.01%.號碼牌識別結(jié)果如表4所示.號碼牌中的運動員編號完全無誤才認為識別正確;運動員編號中可能存在某個數(shù)字變形過大,以及分割過程中存在只包含字符的一部分,該殘缺的字符歸一化大小后與其他字符類似造成識別錯誤,運動員編號識別時某一數(shù)字識別失敗則該號碼牌被誤識.整體來看,基于特征的BP神經(jīng)網(wǎng)絡方法能夠高效地識別運動員編號.圖15為運動員編號識別的典型示例.
表4 號碼牌識別率Tab.4 The efficiency of number recognition
圖15 號碼牌識別示例Fig.15 Examples of number plate recognition results
目前識別運動員編號主要針對籃球、足球視頻中運動員的識別,而足球、籃球等運動方式是運動員所著球服的編號,與田徑運動員號碼牌的檢測差別較大,缺乏有效的檢測田徑運動員號碼牌的方法.在字符識別過程中,采用在車牌識別等領域廣泛使用的基于特征提取的模板匹配[31]方法與上述基于特征的BP神經(jīng)網(wǎng)絡方法進行比較,其中模板匹配與BP神經(jīng)網(wǎng)絡采用相同的特征提取方式統(tǒng)計兩種方法在圖像庫中運動員編號的正確檢測率、誤檢測率以及漏檢測率,如表5所示.由于人體檢測、號碼牌定位、號碼牌分割以及識別各步驟積累的錯誤,對整個圖像庫而言,基于特征的BP神經(jīng)網(wǎng)絡方法的整體識別率為78.35%.由于基于特征的模板匹配方法對變形較大的字符識別魯棒性低,基于特征的BP神經(jīng)網(wǎng)絡方法進行運動員編號識別更為可靠.
表5 圖像庫運動員編號檢測結(jié)果Tab.5 Performance comparisons of number plate recognition
統(tǒng)計單幅圖像的時間效率,由于每幅圖像中包含的運動員數(shù)目不同,會造成圖像耗時的差異.統(tǒng)計現(xiàn)場拍攝的1 042張圖像的處理時間效率,其均值如表6所示.
表6 各步驟時間效率Tab.6 Time efficiency of all steps
單幅圖像從開始預處理定位人體到最終檢測出運動員號碼牌的編號耗時2.19 s,各步驟均能快速有效地完成.從實驗結(jié)果可以看出,號碼牌幾乎無遮擋情況下,運動員號碼牌識別能取得較高的精度,嚴重遮擋的情況下能有效地識別出未遮擋字符的結(jié)果,單幅圖像耗時較短,這些均為運動員檢索圖像中包含自身姿態(tài)良好的圖像創(chuàng)造了條件.
針對缺乏快速檢索田徑運動中包含特定運動員圖像的問題,本文提出了一種識別運動員編號的方法,通過人體檢測、號碼牌定位、字符分割、數(shù)字識別得到運動員的編號.人體檢測的可靠性、號碼牌定位的準確度、分割的效果以及識別的精度等通過馬拉松現(xiàn)場拍攝的圖像進行了實驗驗證∶當號碼牌存在嚴重遮擋時,能有效地識別出未被遮擋字符;號碼牌上各字符幾乎無遮擋情況下,運動員編號識別準確率較高.以上這些為在大量圖像中快速檢索包含特定運動員圖像提供了依據(jù).
采用本文的方法在號碼牌被嚴重遮擋情況下不能有效分割、識別字符,下一步可以結(jié)合人臉識別進行運動員的識別,改善運動員識別結(jié)果.
[1]EZAKI N,BULACU M,SCHOMAKER L.Text detection from natural scene images:Towards a system for visually impaired persons[C]//Proceedings of the 17th International Conference on Pattern Recognition.IEEE, 2004(2):683-686.
[2]楊靖.運動員球衣號碼研究[J].體育文化導刊,2014,9:184-187.
[3]MESSELODI S,MODENA C M.Scene text recognition and tracking to identify athletes in sport videos[J]. Multimedia Tools and Applications,2013,63(2):521-545.
[4]YE Q,HUANG Q,JIANG S,et al.Jersey number detection in sports video for athlete identif i cation[C]//Proceedings of 2005 Visual Communications and Image Processing.International Society for Optics and Photonics.2005:1599-1606.
[5]JUNG K,KIM K I,JAIN A K.Text information extraction in images and video:a survey[J].Pattern Recognition, 2004,37(5):977-997.
[6]MARIANO V Y,KASTURI R.Locating uniform-colored text in video frames[C]//Proceedings of the 15th International Conference on Pattern Recognition.IEEE,2000(4):539-542.
[7]SONG Y,LIU A,PANG L,et al.A novel image text extraction method based on k-means clustering[C]//Proceedings of the 7th IEEE/ACIS International Conference on Computer and Information Science. IEEE.2008:185-190.
[8]SHIVAKUMARA P,PHAN T Q,TAN C L.A Laplacian approach to multi-oriented text detection in video[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(2):412-419.
[9]KIM H K.Efficient automatic text location method and content-based indexing and structuring of video database[J].Journal of Visual Communication and Image Representation,1996,7(4):336-344.
[10]HUANG Z,LENG J.Text extraction in natural scenes using region-based method[J].Journal of Digital Information Management,2014,12(4):246-254.
[11]MAO W,CHUNG F,LAM K K M,et al.Hybrid Chinese/English text detection in images and video frames[C]//Proceedings of the 16th International Conference on Pattern Recognition.IEEE,2002(3):1015-1018.
[12]LEE C W,JUNG K,KIM H J.Automatic text detection and removal in video sequences[J].Pattern Recognition Letters,2003,24(15):2607-2623.
[13]CHEN X,YUILLE A L.Detecting and reading text in natural scenes[C]//Proceedings of 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.IEEE,2004(2):366-373.
[14]ZHAO X,LIN K H,FU Y,et al.Text from corners:a novel approach to detect text and caption in videos[J]. IEEE Transactions on Image Processing,2011,20(3):790-799.
[15]CHENG R,BAI Y.A novel approach for license plate slant correction,character segmentation and Chinese character recognition[J].International Journal of Signal Processing Image Processing and Pattern Recognition, 2014,7(1):353-364.
[16]CHEN Z,CHANG F,LIU C.Chinese license plate recognition based on human vision attention mechanism[J]. International Journal of Pattern Recognition and Artif i cial Intelligence,2013,27(8):488-196.
[17]SULAIMAN N,JALANI S N H M,MUSTAFA M,et al.Development of automatic vehicle plate detection system[C]//Proceedings of the 3rd International Conference on System Engineering and Technology.IEEE, 2013:130-135.
[18]王興玲.最大類間方差車牌字符分割的模板匹配算法[J].計算機工程,2006,32(19):193-195.
[19]李文舉,梁德群,王新年,等.質(zhì)量退化的車牌字符分割方法[J].計算機輔助設計與圖形學學報,2004,16(5):697-700.
[20]KO M,KIM Y M.License plate surveillance system using weighted template matching[C]//Proceedings of the 32nd Applied Imagery Pattern Recognition Workshop.IEEE,2003:269-274.
[21]鄧婷.基于特征統(tǒng)計的車牌非漢字字符識別方法[J].廣西師范學院學報(自然科學版),2009,26(4):88-92.
[22]FOR W,LEMAN K,ENG H L,et al.A multi-camera collaboration framework for real-time vehicle detection and license plate recognition on highways[C]//Proceedings of 2008 IEEE Intelligent Vehicles Symposium.IEEE, 2008:192-197.
[23]ANAGNOSTOPOULOS C N E,ANAGNOSTOPOULOS I E,LOUMOS V,et al.A license plate-recognition algorithm for intelligent transportation system applications[J].IEEE Transactions on Intelligent Transportation Systems,2006,7(3):377-392.
[24]陳金輝.靜態(tài)圖像行人檢測算法研究[D].上海:華東理工大學,2015.
[25]FELZENSZWALB P,MCALLESTER D,RAMANAN D.A discriminatively trained,multiscale,deformable part model[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2008: 1-8.
[26]朱雙東,張懿,陸曉峰.三角形交通標志的智能檢測方法[J].中國圖象圖形學報,2006,11(8):1127-1131.
[27]王義興,黃鳳崗,韓金玉,等.基于顏色搭配與紋理特征的車牌定位方法[J].中國圖象圖形學報,2009,14(2):303-308.
[28]常巧紅,高滿屯.基于HSV色彩空間與數(shù)學形態(tài)學的車牌定位研究[J].圖學學報,2013,34(4):159-162.
[29]向靜波,蘇秀琴,陸陶.基于Contourlet變換和形態(tài)學的圖像增強方法[J].光子學報,2009,38(l):224-227.
[30]MILYAEV S,BARINOVA O,NOVIKOVA T,et al.Fast and accurate scene text understanding with image binarization and of f-the-shelf OCR[J].International Journal on Document Analysis and Recognition,2015,18(2): 169-182.
[31]王建霞,周萬珍.一種改進模板匹配的車牌字符識別方法[J].河北科技大學學報,2010,31(3):236-239.
(責任編輯:李藝)
Research on the number recognition based on athlete number plate image
ZHAO Li-ke1,ZHENG Shun-yi1,2,MA Hao1,WANG Xiao-nan1,WEI Hai-tao1
(1.School of Remote Sensing and Information Engineering,Wuhan University, Wuhan430079,China; 2.Collaborative Innovation Center of Geospatial Technology,Wuhan430079,China)
A lot of images are usually photographed in the sports of track and field, and manual operation is a general method to retrieve image containing certain athletes. In order to quickly retrieve images containing a particular player,a method based on the number to identify a player is proposed.It firstly applied DPM(Deformable Part Model)algorithm to narrow the search scope of number plate.Secondly,according to the prior knowledge,the position of number plate can be located by considering two different ways to ensure the reliability.Thirdly,the characters of number plate are segmented by connected component analysis method.Finally,feature-based BP(Back Propagation)neural network is adopted to recognize the number plate.Experimental results show that the proposed method is efficient to identify the number plate of the players.The number plate recognition method provides a guideline of retrieving a specif i c player’s images.
track and field sports;character segmentation;back propagation neural network;character recognition
TP391
A
10.3969/j.issn.1000-5641.2017.03.007
1000-5641(2017)03-0064-14
2016-05-03
國家863計劃項目(2013AA0630905);中央高校基本科研業(yè)務費專項資金(2042016kf0012);湖北省科技支撐計劃項目(2015BCE080)
趙麗科,女,博士研究生,研究方向為計算機視覺與數(shù)字攝影測量.
E-mail:zlk lenci@163.com.